1、requests爬虫升级为scrapy爬虫:

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

2、start_requests:构造requests对象,包含请求url、请求方式、请求参数

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

3、判断页码,构造下一页请求参数,主要是构造页面,请求下一页数据

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

4、请求详情页资格证号,并返回

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

5、返回资格证号,并yield返回

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

6、数据的处理,pipline,item_key是redis中的集合名词

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

7、加密字段在redis集合中的保存形式

显示所有key :  keys *     

显示key下面的内容: smembers item_wb

查看内容,看到有199个加密指纹,也就是对应199条数据,如果我们程序重新跑的时候,重复爬数据,我们就对数据姓名字段加密,并跟redis中的指纹做对比,如果能sadd插入进去,返回值res是1,则说明是新数据,我们在mysql中执行增加insert操作,如果sadd插入不进去,说明redis中存在该指纹,返回值是0,则在mysql中执行update更新操作,避免数据重复插入

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

8、保存数据库,做了简单的分表保存,分别保存平安和人寿两个数据库

查看数据库,平安99条数据,人寿100条数据,相加为199条数据,跟我们redis中的指纹199吻合,也说明我们的数据,每个人的名字都经过加密了,可以实现增量式爬虫

沃保网爬虫(九)--requests爬虫升级为scrapy爬虫沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

相关文章:

  • 2018-10-25
  • 2022-12-23
  • 2021-12-29
  • 2021-04-27
  • 2021-11-19
  • 2022-01-16
  • 2021-11-19
  • 2021-10-04
猜你喜欢
  • 2021-04-09
  • 2021-12-23
  • 2021-09-06
  • 2022-12-23
  • 2021-09-06
  • 2021-06-09
  • 2021-04-18
相关资源
相似解决方案