【发布时间】:2016-12-23 11:03:45
【问题描述】:
我用scrapy-redis.写了一个分布式蜘蛛
起初,一切似乎都很好。
设置文件:
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
但是,在抓取完所有 URL 后,一个蜘蛛关闭了,而另一个没有关闭 - 并开始重新抓取已经抓取的 URL。
谁能帮我解释一下原因?
【问题讨论】:
-
Bidal,如果您向我们展示 minimal reproducible example,我们可能会提供帮助。
标签: python scrapy web-crawler distributed