【问题标题】:Multiple Sitemap: entries in robots.txt?多个站点地图:robots.txt 中的条目?
【发布时间】:2010-04-07 16:31:58
【问题描述】:

我一直在使用谷歌搜索,但找不到这个问题的答案。

robots.txt 文件可以包含以下行:

Sitemap: http://www.mysite.com/sitemapindex.xml

但是是否可以在 robots.txt 中指定多个站点地图索引文件并让搜索引擎识别并抓取每个站点地图索引文件中引用的所有站点地图?例如,这是否可行:

Sitemap: http://www.mysite.com/sitemapindex1.xml

Sitemap: http://www.mysite.com/sitemapindex2.xml

Sitemap: http://www.mysite.com/sitemapindex3.xml

【问题讨论】:

    标签: sitemap robots.txt


    【解决方案1】:

    是的,可以有more than one sitemap-index-file:

    您可以拥有多个站点地图索引文件。

    由我突出显示。

    是的,可以在robots.txt 中列出多个站点地图文件,另见in the sitemap.org site

    您可以为每个 robots.txt 文件指定多个站点地图文件。

    Sitemap: http://www.example.com/sitemap-host1.xml
    
    Sitemap: http://www.example.com/sitemap-host2.xml
    

    我强调一下,这个不能误读我会说,这么简单的说一下,就可以了。

    这对于交叉提交也是必要的,顺便说一句。 robots.txt 已被选中。

    顺便说一句 GoogleYahooBing,都是members of sitemaps.org

    Sitemap 0.90 是根据 Attribution-ShareAlike Creative Commons License 条款提供的,并已被广泛采用,包括来自 Google、Yahoo! 和 Microsoft 的支持。

    因此,您可以放心,搜索引擎机器人会正确读取您的站点地图条目。

    通过网站管理员工具提交它们也不会受到伤害 - 作为 John Mueller commented

    【讨论】:

    • Google robots.txt 文档证实这对 Google 来说是正确的,并提到它也应该适用于其他机器人:“可能存在多个站点地图条目。作为非组成员记录,这些不绑定到任何特定的用户代理,并且可以被所有爬虫跟踪,只要它不被禁止。”可以在此处找到 Google robots.txt 文档:developers.google.com/webmasters/control-crawl-index/docs/…
    • 问题询问robots.txt 中是否可能存在多个站点地图index 条目,而不是是否可能存在多个站点地图条目。
    • @NigelAlderton:规格同样明确:"You can have more than one Sitemap index file."。如果您将其与 Sitemaps & Cross Submits 部分进行比较,那么对于跨域索引使用而言,每个robots.txt 允许多个索引文件不仅是明确的而且本质上是必要的。
    【解决方案2】:

    如果您的站点地图超过 10 MB(未压缩)或包含超过 50 000 个条目,Google 要求您使用与 站点地图索引文件捆绑的多个站点地图。

    在您的 robots.txt 中指向站点地图索引,该索引应如下所示:

    <?xml version="1.0" encoding="UTF-8"?>
    <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
       <sitemap>
          <loc>http://www.example.com/sitemap1.xml.gz</loc>
          <lastmod>2012-10-01T18:23:17+00:00</lastmod>
       </sitemap>
       <sitemap>
          <loc>http://www.example.com/sitemap2.xml.gz</loc>
          <lastmod>2012-01-01</lastmod>
       </sitemap>
    </sitemapindex>
    

    【讨论】:

    • 嗯,不完全是。来自sitemaps.org/protocol.php:“每个文本文件最多可以包含 50,000 个 URL,并且不得大于 10MB(10,485,760 字节)。”
    • Google 已将每个站点地图文件的允许大小提高到 50MB stackoverflow.com/questions/2887358/…
    • 站点地图:在机器人中指向 sitemapindex.xml 还是有多个站点地图:指向每个站点的行会更好吗?
    • @WarrenDodsworth 我认为这无关紧要,但是如果您有一个“站点地图站点地图”文件,那么如果您选择提交一个文件到 google / bing / 等,而不是每个站点地图文件本身,则更容易这样做。
    • Sitemaps 已经标准化了 50MB 的限制:“解压后不能大于 50MB”sitemaps.org/protocol.html
    【解决方案3】:

    建议创建站点地图索引文件,而不是单独的 XML URL 放入您的 robots.txt 文件中。

    然后,将索引站点地图 URL 如下放入您的 robots.txt 文件中。

    Sitemap: http://www.yoursite.com/sitemap_index.xml
    

    如果您想了解如何创建索引站点地图 URL,请关注此guide from sitemap.org

    最佳实践:

    • 如果您的网站有大量此类内容,请分别创建图像站点地图、视频站点地图。
    • 检查robots文件的拼写,应该是robots.txt,不要使用robot.txt或任何拼写错误。 仅将 robots.txt 文件直接放在根目录中。
    • 欲了解更多信息,您可以访问robots.txt's official website

    【讨论】:

      【解决方案4】:

      你需要在你的文件中指定sitemap.xml这个代码:

      <?xml version="1.0" encoding="UTF-8"?>
      <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
          <sitemap>
              <loc>http://www.exemple.com/sitemap1.xml.gz</loc>
          </sitemap>
          <sitemap>
              <loc>http://www.exemple.com/sitemap2.xml.gz</loc>
          </sitemap>
      </sitemapindex>
      

      来源:https://support.google.com/webmasters/answer/75712?hl=fr#

      【讨论】:

        【解决方案5】:

        可以编写它们,但由搜索引擎知道如何处理它们。我怀疑许多搜索引擎要么会“继续消化”越来越多的令牌,要么将他们找到的最后一个站点地图作为真实的。

        我提出的问题是“如果我希望____搜索引擎为我的网站编制索引,我能否定义多个站点地图?”

        【讨论】:

        • 是的,这似乎是合理的。我认为在 Google 常见问题解答中阅读他们确实支持这一点。
        • Google 确实支持,但如果您想确定,只需在网站管理员工具中手动提交站点地图文件。
        • -1 它在协议规范中。这里的答案是不阅读它并假设其他所有人(尤其是实施者)也不会阅读它的蹩脚借口。在 robots.txt 中完全不支持站点地图的可能性比根据规范不支持要高得多。
        • @Etamar Laron:你能检查一下你的答案吗?对我来说,您在这里说的有点意思,大多数搜索引擎都不支持站点地图标准。能否请您澄清一下,或许可以区分一下?
        • @hakre - 如果您仔细阅读我的答案,您会发现它非常准确,-1 是您的电话。为什么不下次写第二条笔记,然后再决定?...
        猜你喜欢
        • 2018-12-08
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2014-03-17
        • 2015-10-23
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多