先分析页面的url规律,发现url里的参数p为1~7,此时只需使用format函数逐一遍历即可获得每个页面的url。
url_start = ["https://db.yaozh.com/icd?p={}&pageSize=30".format(str(i)) for i in range(1,7)]
再构造allurl()函数解析每个url.
分析页面的疾病名称的xpath路径,使用
content = selector.xpath( '//div[@class="main"]/div[@class="offset-top table-list"]/table[@class="table table-striped"]/tbody/tr/td[2]/text()')得到所有的疾病名称。
保存至txt文件中。
导出txt文件,修改扩展名为csv,即成如下格式。
下载代码,txt,csv文件请至:http://download.csdn.net/download/qq_38057718/10203306
注:网站都有可能因后期维护、管理之内使得xpath路径有所变动。消息留言可修改。