【发布时间】:2014-03-08 19:09:36
【问题描述】:
我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上,我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行之后才开始爬行。怎样才能做到这一点? scrapyd 是解决方案吗?
【问题讨论】:
我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上,我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行之后才开始爬行。怎样才能做到这一点? scrapyd 是解决方案吗?
【问题讨论】:
scrapyd确实是个不错的选择,max_proc或者max_proc_per_cpu配置可以用来限制并行spdiers的数量,那么你将schedulespiders使用scrapyd rest api就好了:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider
【讨论】: