爬取”药智数据”网站下疾病分类与代码的所有疾病名称

       先分析页面的url规律,发现url里的参数p为1~7,此时只需使用format函数逐一遍历即可获得每个页面的url。

url_start = ["https://db.yaozh.com/icd?p={}&pageSize=30".format(str(i)) for i in range(1,7)]

再构造allurl()函数解析每个url.

分析页面的疾病名称的xpath路径,使用

content = selector.xpath(
    '//div[@class="main"]/div[@class="offset-top table-list"]/table[@class="table table-striped"]/tbody/tr/td[2]/text()')
得到所有的疾病名称。

保存至txt文件中。

爬取”药智数据”网站下疾病分类与代码的所有疾病名称

导出txt文件,修改扩展名为csv,即成如下格式。

爬取”药智数据”网站下疾病分类与代码的所有疾病名称

下载代码,txt,csv文件请至:http://download.csdn.net/download/qq_38057718/10203306

注:网站都有可能因后期维护、管理之内使得xpath路径有所变动。消息留言可修改。

相关文章: