【问题标题】:Can I put robots.txt for "sorry" server?我可以将 robots.txt 用于“抱歉”服务器吗?
【发布时间】:2016-01-20 09:41:20
【问题描述】:

我正在考虑是否应该将robots.txt 放在我的“抱歉服务器”上,该服务器会向我们的客户返回一些我们正在维护的抱歉消息。

User-agent: *
Disallow: /

所以这是我的担忧/问题:

  1. 它不会告诉爬虫不要永远索引我们的网站,尽管我们的服务器在维护完成后已经准备好?

  2. 如果我将robots.txt 用于我的抱歉服务器,我是否应该为我们的常规服务器设置另一个robots.txt,告诉爬虫“请索引我们的网站”?

  3. [编辑] 说到极端,它不会从 Google 中删除我们的网站吗?

【问题讨论】:

    标签: web web-crawler search-engine robots.txt google-crawlers


    【解决方案1】:

    您不应该在这种情况下使用 robots.txt。

    在您处于维护模式时获取 robots.txt 的机器人可能会缓存它并在您的网站重新上线时应用其规则(使用更改后的 robots.txt,该机器人在一段时间内不会看到) .在您的网站在线时获取 robots.txt 的机器人也可能在您的网站处于维护模式时应用其规则。

    相反,您应该为维护模式提供适当的 HTTP 标头:503 Service Unavailable。仅此信号就足以(至少对于有些能力的机器人)不索引页面。

    此外,您可以提供具有noindex 值的meta-robots 元素,或相应的HTTP 标头X-Robots-Tag (see example)。

    【讨论】:

      猜你喜欢
      • 2011-01-20
      • 1970-01-01
      • 2023-03-04
      • 2017-10-06
      • 2020-11-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多