当为了确保爬到的数据中没有重复的数据的时候,可以实现一个去重的item pipeline

 

增加构造器方法,在其中初始化用于对与书名的去重的集合

 

在process_item方法中,先取出item中要判断的字段的名称,检查是否已经存在集合中了,如果已经存在了就是重复的数据抛出一个DropItem的异常,并将这个item抛弃,否则就将这个item的字段保存到集合中,并返回这个item

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-06-22
  • 2021-08-16
  • 2021-11-22
  • 2021-12-07
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-11-23
  • 2021-12-26
  • 2022-02-18
  • 2022-12-23
  • 2022-12-23
  • 2021-10-03
相关资源
相似解决方案