如何捕捉 robots.txt 禁止的内容？

【问题标题】：How to catch forbidden by robots.txt?如何捕捉 robots.txt 禁止的内容？
【发布时间】：2017-10-26 12:47:35
【问题描述】：

如何在 scrapy 中捕获 robots.txt 禁止的请求？通常这似乎会被自动忽略，即输出中没有任何内容，所以我真的不知道这些网址会发生什么。理想情况下，如果抓取 url 导致 robots.txt 错误禁止，我想输出类似{'url': url, 'status': 'forbidden by robots.txt'} 的记录。我怎样才能做到这一点？

scrapy 新手。感谢任何帮助。

【问题讨论】：

标签： python scrapy

【解决方案1】：

转到项目文件夹中的settings.py，将ROBOTSTXT_OBEY = True更改为ROBOTSTXT_OBEY = False。

【讨论】：

猜你喜欢

2016-10-07
2011-07-20
2023-03-29
1970-01-01
2019-05-04
2016-09-13
1970-01-01
2019-03-13

相关资源

下载 2021-06-06
下载 2023-01-01
下载 2021-06-24
下载 2023-02-17

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode