robots.txt: user-agent: Googlebot disallow: / Google 仍在索引答案

【问题标题】：robots.txt: user-agent: Googlebot disallow: / Google still indexingrobots.txt: user-agent: Googlebot disallow: / Google 仍在索引
【发布时间】：2011-06-13 17:43:42
【问题描述】：

看看这个网站的robots.txt：

fr2.dk/robots.txt

内容是：

User-Agent: Googlebot
Disallow: /

这应该告诉谷歌不要索引该网站，不是吗？

如果为真，为什么该网站会出现在 Google 搜索中？

【问题讨论】：

您是否使用 Google 网站管理员工具检查您的 robots.txt 文件？
因为这是现在的事情github.com/google/robotstxt

标签： robots.txt googlebot google-index

【解决方案1】：

如果您刚刚添加了此内容，那么您将不得不等待 - 这不是即时的 - 直到 Googlebot 回来对站点进行监控并看到 robots.txt，该站点仍会在他们的数据库中。

我怀疑它是否相关，但您可能希望将您的“代理”更改为“代理” - Google 很可能对此不区分大小写，但完全遵循标准不会有什么坏处。

【讨论】：

谢谢。但该文件自 2008 年以来一直存在，所以它现在应该已经生效；）大写的“代理”是否是谷歌不尊重它的原因？
更改它不会有什么坏处。然后等待 googlebot 再次出现。如果它在您网站上的唯一点击是 robots txt，那么您就会知道所做的更改是有效的。

【解决方案2】：

除了必须等待之外，因为 Google 的索引更新需要一些时间，还请注意，如果您有其他网站链接到您的网站，仅 robots.txt 不足以删除您的网站。

引用谷歌的支持页面"Remove a page or site from Google's search results"：

如果页面仍然存在，但您不希望它出现在搜索结果中，请使用 robots.txt 阻止 Google 抓取它。请注意，一般情况下，即使 robots.txt 不允许某个 URL，如果我们在其他网站上找到该页面的 URL，我们仍可能将该页面编入索引。但是，如果该页面在 robots.txt 中被阻止，Google 不会将其编入索引并且该页面有一个有效的删除请求。

上述文档中还提到了一种可能的替代解决方案：

或者，您可以使用 noindex 元标记。当我们在一个页面上看到这个标签时，即使其他页面链接到它，谷歌也会将该页面从我们的搜索结果中完全删除。如果您无法直接访问站点服务器，这是一个很好的解决方案。（您需要能够编辑页面的 HTML 源代码）。

【讨论】：

您可能需要强调第一句话的最后一部分：“...并且该页面有一个有效的删除请求。”
这不是指已编入索引的网站吗？强迫一个人进入 Google 围墙的工具花园几乎不是 Google 尊重排除标准的一种方式。

【解决方案3】：

我可以确认 Google 不尊重机器人排除文件。这是我的文件，我在将此来源上线之前创建的：

https://git.habd.as/robots.txt

以及文件的全部内容：

User-agent: *
Disallow:

User-agent: Google
Disallow: /

Google 仍然将其编入索引。

我在去年 3 月取消帐户后不再使用 Google，并且从未将此网站添加到 Yandex 之外的网站管理员控制台，这让我有两个假设：

Google 正在抓取 Yandex
Google 不遵守机器人排除标准

我还没有 grep 我的日志，但我会的，我的假设是我会发现 Google 蜘蛛在那里行为不端。

【讨论】：