由于业务需求,10月份上线了新的爬虫业务需求,爬取链接如下:

  • https://zhidao.baidu.com/
  • http://www.mafengwo.cn/wenda/
  • https://you.ctrip.com/asks/

输入相关业务相关热词,抓取对应的问题和答案,问题和答案的内容分析,因涉及公司业务不便分享,现就数据量的分析。
百度知道数据需求:若该热词搜素的结果大于5页,则爬取前5页数据,否则爬取所有数据;
马蜂窝数据需求:若该热词搜素的结果大于60条,则爬取前60条数据,否则爬取所有数据;
携程问答数据需求:同百度知道数据需求;
爬取周期:每周四;

  • 每周不同站点爬取数据量均值分析图如下
    携程问答,马蜂窝,百度知道基于10月份数据量分析
结论:马蜂窝第一次爬取数据可能存在误差,数据结果集的数量在最后趋于稳定,整体热词得到的搜素结果前100条数据得到保障。
  • 每周四爬取数据差异数据统计分析图
    携程问答,马蜂窝,百度知道基于10月份数据量分析
结论:携程问答和马蜂窝的差异数据最后渐渐趋于0,得到的数据绝大多数是重复数据,网站针对业务热词的更新率不是很高,百度知道最后数据量趋于平缓,差异数据占总数据的30%左右,这样的网站对我们的业务分析来说是相对有价值的网站。
  • 爬取数据发布时间是近三年的数据量分析图
    携程问答,马蜂窝,百度知道基于10月份数据量分析
结论:百度知道每年发布问题的用户波动平缓,波动幅度最大的站点是携程问答,业务相关的热词在百度知道站点有稳定的答案需求者。

总结:

就提升业务而言,优先选择的站点可能是百度知道这个站点,当有越来越多的用户提出问题,需要得到这个行业正确的解答时,这个业务的开展是有更大意义的;就业务热词数据量分析来看,当用户有问题需要得到解答时,在携程问答发布问题的用户逐渐减少,在百度知道有一部分相对稳定的用户,是否这部分用户可能成为高价值的客户,还需要建立在不同维度的数据层面进行分析。

相关文章:

  • 2021-06-01
  • 2022-12-23
  • 2021-12-22
  • 2021-10-22
  • 2022-12-23
  • 2022-01-09
  • 2021-11-01
  • 2022-12-23
猜你喜欢
  • 2021-09-22
  • 2021-11-12
  • 2022-12-23
  • 2021-07-25
  • 2021-07-20
  • 2021-12-04
  • 2021-12-09
相关资源
相似解决方案