【问题标题】:Removing robots.txt from tomcat从 tomcat 中删除 robots.txt
【发布时间】:2020-10-27 08:58:48
【问题描述】:

如果我从我的 webapps 根目录中删除 robots.txt,是否允许 Google bot 抓取我网站中的页面?

我们已经禁止所有机器人,但我们想将其删除。 所以请澄清一下,对于机器人来说,缺少 robots.txt 文件是否意味着不会爬入网站?

【问题讨论】:

  • 删除 robots.txt 只会阻止well-behaved robots from crawling your website(Google 表现良好)。您可能无法采取任何措施来完全防止您的网站在任何地方被索引。此外,您的网页可能需要几天时间才能从您指定以后不想抓取的 Google 索引中删除。
  • @Arthur 所以禁止所有机器人并删除它具有相同的效果?
  • 对于表现良好的机器人来说,禁止被认为更好

标签: robots.txt tomcat9


【解决方案1】:

缺少robots.txt 文件,意味着它已开放,任何人都可以无限制地抓取。

此外,大多数网站不需要 robots.txt 文件。

最好让robots.txt 列出不允许的路径,而不是根据用户代理字符串拒绝/阻止 HTTP 请求。


一点旁注:

在动态网页上,使用 User-Agent 字符串在运行时过滤机器人相对容易,但在静态资产(如文件或图像)上拒绝机器人可能更困难。

此外,许多机器人甚至在其用户代理字符串中都没有 botcrawler 一词,这使得区分人类和机器人变得更加困难。

【讨论】:

    猜你喜欢
    • 2013-06-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-01-02
    • 2016-07-24
    • 2015-06-04
    • 2014-12-18
    相关资源
    最近更新 更多