1、requests爬虫升级为scrapy爬虫:
2、start_requests:构造requests对象,包含请求url、请求方式、请求参数
3、判断页码,构造下一页请求参数,主要是构造页面,请求下一页数据
4、请求详情页资格证号,并返回
5、返回资格证号,并yield返回
6、数据的处理,pipline,item_key是redis中的集合名词
7、加密字段在redis集合中的保存形式
显示所有key : keys *
显示key下面的内容: smembers item_wb
查看内容,看到有199个加密指纹,也就是对应199条数据,如果我们程序重新跑的时候,重复爬数据,我们就对数据姓名字段加密,并跟redis中的指纹做对比,如果能sadd插入进去,返回值res是1,则说明是新数据,我们在mysql中执行增加insert操作,如果sadd插入不进去,说明redis中存在该指纹,返回值是0,则在mysql中执行update更新操作,避免数据重复插入
8、保存数据库,做了简单的分表保存,分别保存平安和人寿两个数据库
查看数据库,平安99条数据,人寿100条数据,相加为199条数据,跟我们redis中的指纹199吻合,也说明我们的数据,每个人的名字都经过加密了,可以实现增量式爬虫