【问题标题】:how can I override robots in a sub folder如何覆盖子文件夹中的机器人
【发布时间】:2013-10-29 21:17:52
【问题描述】:

我有一个用于测试目的的子域。我已将 robots.txt 设置为禁止该文件夹。

由于某种原因,某些结果仍在显示。我想这可能是因为我最初没有设置 robots.txt 并且 Google 还没有删除其中的一些。

现在我担心此文件夹中各个 joomla 站点中的 robots.txt 文件会导致 Google 继续为它们编制索引。理想情况下,我想阻止这种情况发生,因为我不想记住在 robots.txt 上线时将其转回跟随(以防万一)。

有没有办法在此文件夹上方的文件夹中使用 robots.txt 显式覆盖这些内容?

【问题讨论】:

  • 请阅读有关 google 如何解释 robots.txt 文件的文档。里面都有解释。

标签: robots.txt


【解决方案1】:

就爬虫而言,robots.txt存在于站点的根目录中。没有 robots.txt 文件层次结构的概念。

因此,如果您有 http://example.comhttp://foo.example.com,那么您将需要两个不同的 robots.txt 文件:一个用于 example.com,一个用于 foo.example.com。当 Googlebot 读取 foo.example.com 的 robots.txt 文件时,它不会考虑 example.com 的 robots.txt。

当 Google bot 抓取 example.com 时,它在任何情况下都不会解释 foo.example.com 的 robots.txt 文件。并且当它抓取 foo.example.com 时,它不会解释 example.com 的 robots.txt。

这能回答你的问题吗?

更多信息

当 Googlebot 抓取 foo.com 时,它会读取 foo.com/robots.txt 并使用该文件中的规则。它不会阅读和遵守 foo.com/portfolio/robots.txt 或 foo.com/portfolio/mydummysite.com/robots.txt 中的规则。请参阅我原始答案的前两句话。

我不完全了解您要阻止的内容,可能是因为我不完全了解您的网站层次结构。但是您无法通过更改 foo.com/robots.txt 或 foo.com/portfolio/robots.txt 中的 robots.txt 文件来更改爬虫在 mydummysite.com 上的行为。

【讨论】:

  • 不是真的,对不起,我已经这么想了。我要问的是 foo.com 是一个域,然后 foo.com/portfolio/mydummysite.com 是该域中的另一个文件夹,因此它会考虑根目录中的 Robots.txt,然后是投资组合文件夹还有另一个,最后在 mydummysite.com 中有第三个,但是说​​ mydummysite.com 在我将 robots.txt 添加到投资组合文件夹之前已经被索引,我可以通过事后使用投资组合文件夹以某种方式覆盖它.我的猜测是否定的,但我希望有更博学的人告诉我我是对的/错的。
猜你喜欢
  • 2022-08-24
  • 2016-10-29
  • 2013-10-14
  • 1970-01-01
  • 1970-01-01
  • 2017-10-04
  • 2023-03-07
  • 1970-01-01
  • 2013-06-14
相关资源
最近更新 更多