爬取汽车之家数据的时候,日志中一直没有任何报错,开始一直不知道什么原因导致的,后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”,Scrapy 设置文件中如果把ROBOTSTXT_OBEY设置为True的时候,会遵循robots.txt 规则进行爬虫;

  这个时候我们只需要很流氓的把setting.py 文件中设置ROBOTSTXT_OBEY=False,这样就完事大吉了

Scrapy ROBOTSTXT_OBEY 默认设置True,会在抓取数据的时候首先会请求robots.txt文件,看看是否允许抓取,如果允许才会抓取。

 

相关文章:

  • 2021-09-01
  • 2021-10-04
  • 2021-07-19
  • 2022-01-16
  • 2021-11-19
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2022-02-22
  • 2021-11-16
  • 2021-11-17
  • 2021-11-18
  • 2021-12-17
相关资源
相似解决方案