一个接一个地运行多个蜘蛛

【问题标题】：Running more than one spiders one by one一个接一个地运行多个蜘蛛
【发布时间】：2014-03-08 19:09:36
【问题描述】：

我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上，我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛，以至于蜘蛛在另一只蜘蛛完成爬行之后才开始爬行。怎样才能做到这一点？ scrapyd 是解决方案吗？

【问题讨论】：

【解决方案1】：

scrapyd确实是个不错的选择，max_proc或者max_proc_per_cpu配置可以用来限制并行spdiers的数量，那么你将schedulespiders使用scrapyd rest api就好了：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

【讨论】：

我有两个蜘蛛：spider1 和 spider2。现在如何开始做呢？
但是“scrapy deploy”不起作用。说“用法 ===== scrapy deploy [options] [ [target] | -l | -L ] deploy: error: Unknown target: default "
还有 schedule.json 文件在哪里？还是我必须创建一个？ @Guy Gavriely
浏览其余的scrapyd文档可能很有用：scrapyd.readthedocs.org/en/latest