爬取”药智数据”网站下疾病分类与代码的所有疾病名称

先分析页面的url规律，发现url里的参数p为1~7，此时只需使用format函数逐一遍历即可获得每个页面的url。

url_start = ["https://db.yaozh.com/icd?p={}&pageSize=30".format(str(i)) for i in range(1,7)]

再构造allurl()函数解析每个url.

分析页面的疾病名称的xpath路径，使用

content = selector.xpath(
    '//div[@class="main"]/div[@class="offset-top table-list"]/table[@class="table table-striped"]/tbody/tr/td[2]/text()')

得到所有的疾病名称。

保存至txt文件中。

爬取”药智数据”网站下疾病分类与代码的所有疾病名称

导出txt文件，修改扩展名为csv，即成如下格式。

爬取”药智数据”网站下疾病分类与代码的所有疾病名称

下载代码，txt，csv文件请至：http://download.csdn.net/download/qq_38057718/10203306

注：网站都有可能因后期维护、管理之内使得xpath路径有所变动。消息留言可修改。