【问题标题】:Should sitemap be disallowed in robots.txt? and robot.txt itself? [closed]robots.txt 中是否应禁止站点地图?和robot.txt 本身? [关闭]
【发布时间】:2011-07-01 18:48:52
【问题描述】:

这是一个非常基本的问题,但我在网上的任何地方都找不到直接答案。在 google 上搜索我的网站时,sitemap.xml 和 robots.txt 作为搜索结果返回(在更有用的结果中)。为了防止这种情况,我应该在 robots.txt 中添加以下几行吗?:

Disallow: /sitemap.xml
Disallow: /robots.txt

这不会阻止搜索引擎访问站点地图或机器人文件吗?

另外/我应该使用谷歌的 URL 删除工具吗?

【问题讨论】:

    标签: indexing sitemap robots.txt


    【解决方案1】:

    您不会阻止爬虫对 robots.txt 进行索引,因为这是先有鸡还是先有蛋的情况,但是,如果您没有指定 google 和其他搜索引擎直接查看站点地图,您可能会失去一些索引权重拒绝您的 sitemap.xml。 您是否有特殊原因不希望用户看到站点地图? 我实际上这样做是专门针对谷歌爬虫的:

     Allow: /
     # Sitemap
     Sitemap: http://www.mysite.com/sitemap.xml
    

    【讨论】:

    • 我不想阻止用户看到站点地图文件,但我只是不希望它出现在搜索结果中。有没有办法做到这一点?以及robots.txt?我基本上只想在包含网站内容的搜索结果中出现“有用”的网址。
    • 好吧,如果您的站点地图和 robots.txt 文件获得的点击量比您的内容更多,您必须想知道为什么会这样。您的内容应该始终比 XML 文件更能吸引用户。同样,如果您真的担心,您可以做一些后端服务器功夫,并使用后端语言或 Web 服务器在服务器头部响应中放置所谓的 X-Robots 标签。 yoast.com/x-robots-tag-play
    • 我们不会索引站点地图(即在结果中返回站点地图),除非它是从 HTML 页面等公共资源链接的。如果您仅在 robots.txt 文件中列出它,我们将不会对其进行索引。需要注意的一点是,如果您禁止抓取站点地图,我们将无法抓取并使用它。
    • @RLJ 没有合适的搜索引擎会将您的sitemap.xmlrobots.txt 用于抓取——它们是机器读取文件格式的专门机器读取文件。如果您的站点地图引用了任何 HTML 文件,并且您的站点地图被认为具有任何价值,那么搜索引擎就会显示该文件。
    • @methode [需要引用]
    猜你喜欢
    • 1970-01-01
    • 2011-01-15
    • 2015-10-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-03-17
    相关资源
    最近更新 更多