工具配置:
操作系统:Ubuntu;
IDE:pycharm集成环境
爬虫思路:每个网站html文档具有各自的特点,分析目标网站html特征数据标签和属性是关键,结合python requests库,
BeautifulSoup库,re库对目标数据提取,并保存至本地文件。再利用python jieba 库,wordcloud库,matplotlib库
进行分词,最终制作云图。
结合自身爬取需求,分析目标网站html文件发现,“经典问答”分布式结构下层依据科室分类,患者提出问题,并且每个
科室最大网页篇幅仅仅有/?page=30。所需爬取数据标签和特征属性<a href='/pc/qa.....'>。
废话不多说,代码如下:
如上:词云生成代码;如下:词云图;