【问题标题】:robots.txt: user-agent: Googlebot disallow: / Google still indexingrobots.txt: user-agent: Googlebot disallow: / Google 仍在索引
【发布时间】:2011-06-13 17:43:42
【问题描述】:

看看这个网站的robots.txt:

fr2.dk/robots.txt

内容是:

User-Agent: Googlebot
Disallow: /

这应该告诉谷歌不要索引该网站,不是吗?

如果为真,为什么该网站会出现在 Google 搜索中?

【问题讨论】:

标签: robots.txt googlebot google-index


【解决方案1】:

如果您刚刚添加了此内容,那么您将不得不等待 - 这不是即时的 - 直到 Googlebot 回来对站点进行监控并看到 robots.txt,该站点仍会在他们的数据库中。

我怀疑它是否相关,但您可能希望将您的“代理”更改为“代理” - Google 很可能对此不区分大小写,但完全遵循标准不会有什么坏处。

【讨论】:

  • 谢谢。但该文件自 2008 年以来一直存在,所以它现在应该已经生效;)大写的“代理”是否是谷歌不尊重它的原因?
  • 更改它不会有什么坏处。然后等待 googlebot 再次出现。如果它在您网站上的唯一点击是 robots txt,那么您就会知道所做的更改是有效的。
【解决方案2】:

除了必须等待之外,因为 Google 的索引更新需要一些时间,还请注意,如果您有其他网站链接到您的网站,仅 robots.txt 不足以删除您的网站。

引用谷歌的支持页面"Remove a page or site from Google's search results"

如果页面仍然存在,但您不希望它出现在搜索结果中,请使用 robots.txt 阻止 Google 抓取它。请注意,一般情况下,即使 robots.txt 不允许某个 URL,如果我们在其他网站上找到该页面的 URL,我们仍可能将该页面编入索引。但是,如果该页面在 robots.txt 中被阻止,Google 不会将其编入索引并且该页面有一个有效的删除请求

上述文档中还提到了一种可能的替代解决方案:

或者,您可以使用 noindex 元标记。当我们在一个页面上看到这个标签时,即使其他页面链接到它,谷歌也会将该页面从我们的搜索结果中完全删除。如果您无法直接访问站点服务器,这是一个很好的解决方案。 (您需要能够编辑页面的 HTML 源代码)。

【讨论】:

  • 您可能需要强调第一句话的最后一部分:“...并且该页面有一个有效的删除请求。”
  • 这不是指已编入索引的网站吗?强迫一个人进入 Google 围墙的工具花园几乎不是 Google 尊重排除标准的一种方式。
【解决方案3】:

我可以确认 Google 不尊重机器人排除文件。这是我的文件,我在将此来源上线之前创建的:

https://git.habd.as/robots.txt

以及文件的全部内容:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

Google 仍然将其编入索引。

我在去年 3 月取消帐户后不再使用 Google,并且从未将此网站添加到 Yandex 之外的网站管理员控制台,这让我有两个假设:

  1. Google 正在抓取 Yandex
  2. Google 不遵守机器人排除标准

我还没有 grep 我的日志,但我会的,我的假设是我会发现 Google 蜘蛛在那里行为不端。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-09-15
    • 2017-06-13
    • 1970-01-01
    • 2022-07-06
    • 1970-01-01
    • 2010-10-02
    相关资源
    最近更新 更多