【问题标题】:How to catch forbidden by robots.txt?如何捕捉 robots.txt 禁止的内容?
【发布时间】:2017-10-26 12:47:35
【问题描述】:

如何在 scrapy 中捕获 robots.txt 禁止的请求?通常这似乎会被自动忽略,即输出中没有任何内容,所以我真的不知道这些网址会发生什么。理想情况下,如果抓取 url 导致 robots.txt 错误禁止,我想输出类似{'url': url, 'status': 'forbidden by robots.txt'} 的记录。我怎样才能做到这一点?

scrapy 新手。感谢任何帮助。

【问题讨论】:

    标签: python scrapy


    【解决方案1】:

    转到项目文件夹中的settings.py,将ROBOTSTXT_OBEY = True更改为ROBOTSTXT_OBEY = False

    【讨论】:

      猜你喜欢
      • 2016-10-07
      • 2011-07-20
      • 2023-03-29
      • 1970-01-01
      • 2019-05-04
      • 2016-09-13
      • 1970-01-01
      • 2019-03-13
      相关资源
      最近更新 更多