【发布时间】:2014-07-26 00:29:55
【问题描述】:
嘿,我的项目中有大约 50 个蜘蛛,我目前正在通过 scrapyd 服务器运行它们。我遇到了一个问题,我使用的一些资源被锁定并导致我的蜘蛛失败或运行速度非常慢。我希望他们能以某种方式告诉scrapyd 一次只有一个正在运行的蜘蛛,并将其余的留在待处理队列中。我在文档中没有看到此配置选项。任何帮助将不胜感激!
【问题讨论】:
-
你有什么样的共享资源?
-
我有一个要写入的 sqlite 文件。每隔一段时间我就会收到一个无法连接的错误。此外,我正在使用 phantomjs 和 selenium 来处理动态(javascript)内容。有时 phantomjs 的 GhostDriver 似乎由于竞争条件而被阻止。
标签: python python-2.7 scrapy scrapyd scrapy-spider