tian2B

爬虫学习的一点心得

任务:每日新增微博指定信息抓取

抓取:requests

解析:xpath,正则表达式

存储:MongDB

遇到的问题:

1. xpath 解析时,如果有一个标签中有2个属性,2个属性之间用and相连,如果其中一个属性不一样,后面不用跟等号

      selector.xpath(\'//div[@class="c" and @id]\')
2.将每个微博的作者和发布时间合并成一个字符,插入到redis的一个集合
cmcc_sets中,当插入成功表示,该微博为新增微博需要下载到MongoDB中,如果未插入成功,则表示该微博已经下载过,无需重复插入

 


分类:

技术点:

相关文章:

  • 2021-10-12
  • 2021-07-16
  • 2021-11-28
  • 2021-04-11
  • 2021-11-18
  • 2021-08-21
  • 2021-12-17
  • 2021-12-04
猜你喜欢
  • 2021-11-28
  • 2021-11-28
  • 2021-12-14
  • 2021-12-25
  • 2021-11-28
  • 2021-08-23
相关资源
相似解决方案