【问题标题】:Google crawling XML file谷歌抓取 XML 文件
【发布时间】:2011-01-24 22:43:38
【问题描述】:

我需要 xml 文件来索引我的网站以进行谷歌抓取。我正在使用一些软件来制作 XML 文件。我的问题是我是否需要列出所有动态页面。我的意思是这样的:

http://mysite.com/page/?id=01
http://mysite.com/page/?id=02
http://mysite.com/page/?id=03
http://mysite.com/page/?id=04
http://mysite.com/page/?id=05

如果是,为什么?如果我不包括它们并只是说:

http://mysite.com/page/

如果我包含所有 id,结果将是一个巨大的 XML 文件。谷歌接受这么大的文件还是有限制?

提前感谢所有帮助和时间。

【问题讨论】:

    标签: seo xml-sitemap


    【解决方案1】:

    无论如何,Google 都不会将您的动态页面全部编入索引。即使您将它们放在 sitemap.xml 中,它也会将它们中的许多扔掉。内容太相似了。

    sitemap.xml 中的条目数是有限制的,它曾经是 ~50k pages/10MB。根据我的经验,如果它们看起来太相似并且没有入站链接,Google 会抓取几千个并停止。

    【讨论】:

      【解决方案2】:

      您根本不需要 XML 站点地图。它只是让谷歌更容易抓取你的内容。 显然你不必在里面放动态的东西。

      【讨论】:

      • 你的意思是,如果我为我的网站制作 XML 站点地图,我会让谷歌的抓取变得更加困难?
      • 没有。站点地图更容易,因为它可以一次获取您认为重要的所有 URL。但它很可能仍会检查您页面上的链接。
      【解决方案3】:

      如果这是一个真正的问题,请尝试阅读 rel="canonical",它旨在从 Google 中排除这些类型的网页。虽然它的用处取决于用例,但您可能会发现它是适合您的解决方案。

      http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=139394

      【讨论】:

        猜你喜欢
        • 2016-03-06
        • 1970-01-01
        • 2016-01-25
        • 2016-04-22
        • 2018-06-20
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多