【问题标题】:Scrapy concurrent or distributed crawlsScrapy 并发或分布式爬虫
【发布时间】:2015-05-27 16:45:03
【问题描述】:

我想使用 scrapy 抓取相当大的网站。在某些情况下,我已经有了要抓取的链接,而在其他情况下,我需要提取(抓取)它们。运行时我还需要访问数据库两次。一次是为了确定是否需要抓取 url(Spider 中间件),一次是为了存储提取的信息(Item 管道)。 理想情况下,我将能够运行并发或分布式爬网以加快速度。使用 scrapy 运行并发或分布式爬网的推荐方法是什么?

【问题讨论】:

    标签: concurrency scrapy distributed


    【解决方案1】:

    你应该检查scrapy_redis

    实现起来非常简单。您的schedulerduplicate filter 将存储在redis 队列中。所有的蜘蛛都会同时工作,你应该加快你的爬行时间。

    希望这会有所帮助。

    【讨论】:

      【解决方案2】:

      Scrapy Cluster 文档包含一个page,其中列出了许多现有的基于 Scrapy 的分布式抓取解决方案。

      【讨论】:

        猜你喜欢
        • 2019-06-24
        • 2021-12-26
        • 1970-01-01
        • 1970-01-01
        • 2019-10-20
        • 1970-01-01
        • 2019-12-27
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多