【发布时间】:2017-10-26 12:47:35
【问题描述】:
如何在 scrapy 中捕获 robots.txt 禁止的请求?通常这似乎会被自动忽略,即输出中没有任何内容,所以我真的不知道这些网址会发生什么。理想情况下,如果抓取 url 导致 robots.txt 错误禁止,我想输出类似{'url': url, 'status': 'forbidden by robots.txt'} 的记录。我怎样才能做到这一点?
scrapy 新手。感谢任何帮助。
【问题讨论】:
如何在 scrapy 中捕获 robots.txt 禁止的请求?通常这似乎会被自动忽略,即输出中没有任何内容,所以我真的不知道这些网址会发生什么。理想情况下,如果抓取 url 导致 robots.txt 错误禁止,我想输出类似{'url': url, 'status': 'forbidden by robots.txt'} 的记录。我怎样才能做到这一点?
scrapy 新手。感谢任何帮助。
【问题讨论】:
转到项目文件夹中的settings.py,将ROBOTSTXT_OBEY = True更改为ROBOTSTXT_OBEY = False。
【讨论】: