谷歌抓取 XML 文件答案

【问题标题】：Google crawling XML file谷歌抓取 XML 文件
【发布时间】：2011-01-24 22:43:38
【问题描述】：

我需要 xml 文件来索引我的网站以进行谷歌抓取。我正在使用一些软件来制作 XML 文件。我的问题是我是否需要列出所有动态页面。我的意思是这样的：

如果是，为什么？如果我不包括它们并只是说：

如果我包含所有 id，结果将是一个巨大的 XML 文件。谷歌接受这么大的文件还是有限制？

提前感谢所有帮助和时间。

【问题讨论】：

【解决方案1】：

无论如何，Google 都不会将您的动态页面全部编入索引。即使您将它们放在 sitemap.xml 中，它也会将它们中的许多扔掉。内容太相似了。

sitemap.xml 中的条目数是有限制的，它曾经是 ~50k pages/10MB。根据我的经验，如果它们看起来太相似并且没有入站链接，Google 会抓取几千个并停止。

【讨论】：

【解决方案2】：

您根本不需要 XML 站点地图。它只是让谷歌更容易抓取你的内容。显然你不必在里面放动态的东西。

【讨论】：

【解决方案3】：

如果这是一个真正的问题，请尝试阅读 rel="canonical"，它旨在从 Google 中排除这些类型的网页。虽然它的用处取决于用例，但您可能会发现它是适合您的解决方案。

【讨论】：