robots.txt 中是否应禁止站点地图？和robot.txt 本身？ [关闭]答案

【问题标题】：Should sitemap be disallowed in robots.txt? and robot.txt itself? [closed]robots.txt 中是否应禁止站点地图？和robot.txt 本身？ [关闭]
【发布时间】：2011-07-01 18:48:52
【问题描述】：

这是一个非常基本的问题，但我在网上的任何地方都找不到直接答案。在 google 上搜索我的网站时，sitemap.xml 和 robots.txt 作为搜索结果返回（在更有用的结果中）。为了防止这种情况，我应该在 robots.txt 中添加以下几行吗？：

Disallow: /sitemap.xml
Disallow: /robots.txt

这不会阻止搜索引擎访问站点地图或机器人文件吗？

另外/我应该使用谷歌的 URL 删除工具吗？

【问题讨论】：

标签： indexing sitemap robots.txt

【解决方案1】：

您不会阻止爬虫对 robots.txt 进行索引，因为这是先有鸡还是先有蛋的情况，但是，如果您没有指定 google 和其他搜索引擎直接查看站点地图，您可能会失去一些索引权重拒绝您的 sitemap.xml。您是否有特殊原因不希望用户看到站点地图？我实际上这样做是专门针对谷歌爬虫的：

 Allow: /
 # Sitemap
 Sitemap: http://www.mysite.com/sitemap.xml

【讨论】：

我不想阻止用户看到站点地图文件，但我只是不希望它出现在搜索结果中。有没有办法做到这一点？以及robots.txt？我基本上只想在包含网站内容的搜索结果中出现“有用”的网址。
好吧，如果您的站点地图和 robots.txt 文件获得的点击量比您的内容更多，您必须想知道为什么会这样。您的内容应该始终比 XML 文件更能吸引用户。同样，如果您真的担心，您可以做一些后端服务器功夫，并使用后端语言或 Web 服务器在服务器头部响应中放置所谓的 X-Robots 标签。 yoast.com/x-robots-tag-play
我们不会索引站点地图（即在结果中返回站点地图），除非它是从 HTML 页面等公共资源链接的。如果您仅在 robots.txt 文件中列出它，我们将不会对其进行索引。需要注意的一点是，如果您禁止抓取站点地图，我们将无法抓取并使用它。
@RLJ 没有合适的搜索引擎会将您的sitemap.xml 或robots.txt 用于抓取——它们是机器读取文件格式的专门机器读取文件。如果您的站点地图引用了任何 HTML 文件，并且您的站点地图被认为具有任何价值，那么搜索引擎就会显示该文件。
@methode [需要引用]