【问题标题】:What robots.txt means in this line?robots.txt 在这一行中是什么意思?
【发布时间】:2017-02-12 20:16:24
【问题描述】:

我想从 robots.txt 文件包含的网站上抓取一些数据,这是否意味着我可以从 wp-admin 之外的任何地方抓取? 还有其他方法可以让我知道该网站允许抓取/抓取而没有任何阻塞吗? 对于抓取,我使用 Python Scrapy 框架。

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

【问题讨论】:

  • 检查robots.txt 始终是查看是否允许抓取的好方法。我也会检查 TOS 和 EULA。是的,这就是robots.txt 的意思。
  • 我对TOS和EULA一无所知,请您提供任何链接或一些细节,非常感谢! @MorganThrapp
  • 服务条款和最终用户许可协议。它会因站点而异。

标签: python-3.x scrapy


【解决方案1】:

在较新版本的 Scrapy 中,引入了新的设置变量robotstxt_obey - 如果启用,它将严格遵循 robots txt

bu 默认值为True

正如评论中提到的,文档确实说默认值为False,但此行为在最新版本的scrapy中已更改,现在默认为True

【讨论】:

  • 不知道,该值设置为 True!我没有改变它。就是这样。谢谢
  • 是的,自最近的scrapy版本以来,通过scrapy startproject创建的每个新scrapy项目的值默认为True。
  • 是的,现在它默认为 """ROBOTSTXT_OBEY = True""",并且 doc 没有反映最新的变化,已经在 Github 项目上提出了相同的 PR
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-08-04
  • 2013-08-17
  • 2011-09-04
相关资源
最近更新 更多