scrapy-redis重新爬取一台机器已经爬过的url答案

【问题标题】：scrapy-redis re-crawl the url that one machine has already crawledscrapy-redis重新爬取一台机器已经爬过的url
【发布时间】：2016-12-23 11:03:45
【问题描述】：

我用scrapy-redis.写了一个分布式蜘蛛
起初，一切似乎都很好。

设置文件：

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

但是，在抓取完所有 URL 后，一个蜘蛛关闭了，而另一个没有关闭 - 并开始重新抓取已经抓取的 URL。

谁能帮我解释一下原因？

【问题讨论】：

Bidal，如果您向我们展示 minimal reproducible example，我们可能会提供帮助。

标签： python scrapy web-crawler distributed

【解决方案1】：

我已经解决了这个问题！由于使用“def close_spider(self, spider):”函数设置错误的参数，spider 无法正常关闭。

【讨论】：