【问题标题】:Can I put robots.txt for "sorry" server?我可以将 robots.txt 用于“抱歉”服务器吗?
【发布时间】:2016-01-20 09:41:20
【问题描述】:
我正在考虑是否应该将robots.txt 放在我的“抱歉服务器”上,该服务器会向我们的客户返回一些我们正在维护的抱歉消息。
User-agent: *
Disallow: /
所以这是我的担忧/问题:
它不会告诉爬虫不要永远索引我们的网站,尽管我们的服务器在维护完成后已经准备好?
如果我将robots.txt 用于我的抱歉服务器,我是否应该为我们的常规服务器设置另一个robots.txt,告诉爬虫“请索引我们的网站”?
[编辑] 说到极端,它不会从 Google 中删除我们的网站吗?
【问题讨论】:
标签:
web
web-crawler
search-engine
robots.txt
google-crawlers
【解决方案1】:
您不应该在这种情况下使用 robots.txt。
在您处于维护模式时获取 robots.txt 的机器人可能会缓存它并在您的网站重新上线时应用其规则(使用更改后的 robots.txt,该机器人在一段时间内不会看到) .在您的网站在线时获取 robots.txt 的机器人也可能在您的网站处于维护模式时应用其规则。
相反,您应该为维护模式提供适当的 HTTP 标头:503 Service Unavailable。仅此信号就足以(至少对于有些能力的机器人)不索引页面。
此外,您可以提供具有noindex 值的meta-robots 元素,或相应的HTTP 标头X-Robots-Tag (see example)。