工具配置:

  操作系统:Ubuntu;

  IDE:pycharm集成环境

爬虫思路:每个网站html文档具有各自的特点,分析目标网站html特征数据标签和属性是关键,结合python requests库,

BeautifulSoup库,re库对目标数据提取,并保存至本地文件。再利用python jieba 库,wordcloud库,matplotlib库

进行分词,最终制作云图。

基于python爬取‘’春雨医生“网站患者提问数据制作数据云图分析患者需求基于python爬取‘’春雨医生“网站患者提问数据制作数据云图分析患者需求

基于python爬取‘’春雨医生“网站患者提问数据制作数据云图分析患者需求

结合自身爬取需求,分析目标网站html文件发现,“经典问答”分布式结构下层依据科室分类,患者提出问题,并且每个

科室最大网页篇幅仅仅有/?page=30。所需爬取数据标签和特征属性<a href='/pc/qa.....'>。

废话不多说,代码如下:


基于python爬取‘’春雨医生“网站患者提问数据制作数据云图分析患者需求基于python爬取‘’春雨医生“网站患者提问数据制作数据云图分析患者需求

如上:词云生成代码;如下:词云图;

基于python爬取‘’春雨医生“网站患者提问数据制作数据云图分析患者需求








  

相关文章: