【问题标题】:scrapy-redis re-crawl the url that one machine has already crawledscrapy-redis重新爬取一台机器已经爬过的url
【发布时间】:2016-12-23 11:03:45
【问题描述】:

我用scrapy-redis.写了一个分布式蜘蛛
起初,一切似乎都很好。

设置文件:

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

但是,在抓取完所有 URL 后,一个蜘蛛关闭了,而另一个没有关闭 - 并开始重新抓取已经抓取的 URL。

谁能帮我解释一下原因?

【问题讨论】:

标签: python scrapy web-crawler distributed


【解决方案1】:

我已经解决了这个问题!由于使用“def close_spider(self, spider):”函数设置错误的参数,spider 无法正常关闭。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-10-26
    • 2021-02-10
    • 2021-11-20
    • 2019-06-24
    • 2012-06-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多