【问题标题】:How Setup Number of Simultaneous requests in PYSPIDER如何在 PYSPIDER 中设置同时请求数
【发布时间】:2020-09-11 09:23:43
【问题描述】:

我正在尝试使用 Pyspider 爬虫扫描我的网站,我希望每 2 秒发出一个请求,但目前我知道同时发出 3 个请求,我找不到要更改的设置这个参数。

我在 /usr/lib/python2.7/site-packages/pyspider/scheduler/scheduler.py 文件中找到了设置 LOOP_INTERVAL,我将其设置为 2(秒),但现在每 2 秒发出 3 个请求,而我只希望每 2 秒发出 1 个请求。

这是我的设置:

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://example.com/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

那我也想让爬虫只进1页,从哪里改这个参数呢?

【问题讨论】:

    标签: python web-crawler pyspider


    【解决方案1】:

    看这里https://docs.pyspider.org/en/latest/About-Projects/#about-projects find rate/burst 。我认为它会解决你的问题。更改为速率/突发 = 0.02/1

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-11-05
      • 2019-03-22
      • 2018-09-07
      • 2019-07-19
      • 1970-01-01
      • 1970-01-01
      • 2020-02-03
      相关资源
      最近更新 更多