【发布时间】:2015-05-27 16:45:03
【问题描述】:
我想使用 scrapy 抓取相当大的网站。在某些情况下,我已经有了要抓取的链接,而在其他情况下,我需要提取(抓取)它们。运行时我还需要访问数据库两次。一次是为了确定是否需要抓取 url(Spider 中间件),一次是为了存储提取的信息(Item 管道)。 理想情况下,我将能够运行并发或分布式爬网以加快速度。使用 scrapy 运行并发或分布式爬网的推荐方法是什么?
【问题讨论】:
标签: concurrency scrapy distributed