【发布时间】:2013-07-15 17:48:21
【问题描述】:
我编写了一个简单的爬虫。 在settings.py文件中,通过参考scrapy文档,我使用了
DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'
如果我停止爬虫并再次重新启动爬虫,它会再次抓取重复的网址。 我做错了吗?
【问题讨论】:
-
你能告诉我你是否必须导入相应的包吗?我将
DUPEFILTER_CLASS添加到我的settings.py 文件中,但出现以下错误:ModuleNotFoundError: No module named 'scrapy.dupefilter'
标签: scrapy