Scrapy 并发或分布式爬虫答案

【问题标题】：Scrapy concurrent or distributed crawlsScrapy 并发或分布式爬虫
【发布时间】：2015-05-27 16:45:03
【问题描述】：

我想使用 scrapy 抓取相当大的网站。在某些情况下，我已经有了要抓取的链接，而在其他情况下，我需要提取（抓取）它们。运行时我还需要访问数据库两次。一次是为了确定是否需要抓取 url（Spider 中间件），一次是为了存储提取的信息（Item 管道）。理想情况下，我将能够运行并发或分布式爬网以加快速度。使用 scrapy 运行并发或分布式爬网的推荐方法是什么？

【问题讨论】：

标签： concurrency scrapy distributed

【解决方案1】：

你应该检查scrapy_redis。

实现起来非常简单。您的scheduler 和duplicate filter 将存储在redis 队列中。所有的蜘蛛都会同时工作，你应该加快你的爬行时间。

希望这会有所帮助。

【讨论】：

【解决方案2】：

Scrapy Cluster 文档包含一个page，其中列出了许多现有的基于 Scrapy 的分布式抓取解决方案。

【讨论】：