【问题标题】:Running scrapy spider on multiple machines (parallel scraping)在多台机器上运行 scrapy spider(并行抓取)
【发布时间】:2014-10-06 15:27:23
【问题描述】:

我使用 Scrapy 已经有一段时间了,我一直在寻找是否可以在不同的机器(相同的 IP)上同时使用一个或多个蜘蛛(并行抓取)来加速 Scrapy;但我还没有找到与此相关的任何内容。有人知道吗?

任何帮助将不胜感激,谢谢。

【问题讨论】:

    标签: python scrapy


    【解决方案1】:

    没有内置的方法可以做到这一点,但您可以通过使用多个 scrapyd 实例来完成分布式抓取。您只需要发出单独的调度请求(每个 scrapyd 服务器实例 1+)。

    http://doc.scrapy.org/en/latest/topics/practices.html#distributed-crawls

    【讨论】:

      猜你喜欢
      • 2018-12-20
      • 2016-03-17
      • 2020-09-26
      • 2015-07-09
      • 1970-01-01
      • 1970-01-01
      • 2020-10-03
      • 1970-01-01
      • 2016-01-09
      相关资源
      最近更新 更多