tian2B

爬虫学习的一点心得

任务:每日新增微博指定信息抓取

抓取:requests

解析:xpath,正则表达式

存储:MongDB

遇到的问题:

1. xpath 解析时,如果有一个标签中有2个属性,2个属性之间用and相连,如果其中一个属性不一样,后面不用跟等号

      selector.xpath(\'//div[@class="c" and @id]\')
2.将每个微博的作者和发布时间合并成一个字符,插入到redis的一个集合
cmcc_sets中,当插入成功表示,该微博为新增微博需要下载到MongoDB中,如果未插入成功,则表示该微博已经下载过,无需重复插入

 


分类:

技术点:

相关文章: