【问题标题】:scrapinghub starting job too slowscrapinghub 启动工作太慢
【发布时间】:2019-10-08 12:46:36
【问题描述】:

我是抓取新手,我在 scrapinghub 上运行不同的工作。我通过他们的 API 运行它们。问题是启动蜘蛛并初始化它需要太多时间,比如 30 秒。当我在本地运行它时,最多需要 5 秒才能完成蜘蛛。但是在 scrapinghub 中需要 2:30 分钟。我知道在所有请求完成后关闭蜘蛛需要更多时间,但这不是问题。无论如何,我的问题是,从我调用 API 开始作业的那一刻起(我看到它立即出现在正在运行的作业中,但是发出第一个请求需要很长时间)和第一个请求完成的那一刻,我必须等太多了。知道我怎样才能让它在当地尽可能短地持续下去吗?谢谢!

我已经尝试设置 AUTOTHROTTLE_ENABLED = false,正如我在 stackoverflow 上的其他问题中看到的那样。

【问题讨论】:

  • 只是想确认一下,我在 scrapinghub 上也有同样的经历。

标签: scrapy scrapinghub


【解决方案1】:

根据scrapy cloud docs:
Scrapy Cloud 作业在容器中运行。这些容器的大小可以由 Scrapy Cloud 单元定义。

Scrapy Cloud 提供:1 GB RAM、2.5GB 磁盘空间、1x CPU 和 1 个并发爬网槽。

可用于作业的资源与分配的单元数成正比。
这意味着分配更多的 Scrapy Cloud 单元可以解决您的问题。

【讨论】:

    猜你喜欢
    • 2022-06-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多