将超过 100K 的页面链接在一起而不会受到 SEO 的惩罚答案

【问题标题】：Linking together >100K pages without getting SEO penalized将超过 100K 的页面链接在一起而不会受到 SEO 的惩罚
【发布时间】：2012-05-16 05:04:05
【问题描述】：

我正在创建一个网站，该网站将对 Internet 上数十万个其他网站的隐私政策进行审查。它的初始内容是基于我在CommonCrawl 50 亿页面的网页转储和analyzing all the privacy policies 中运行的脚本，以识别某些特征（例如“出售您的个人信息”）。

根据SEO MOZ Beginner's Guide to SEO：

搜索引擎往往只抓取任何给定页面上的大约 100 个链接。这种宽松的限制对于减少垃圾邮件和保存排名。

我想知道什么是创建导航网络的聪明方法，它不会留下孤立的页面，但仍然可以避免他们所说的这种 SEO 惩罚。我有几个想法：

创建按字母顺序排列的页面（或 Google Sitemap .xml 的），例如“以 Ado* 开头的站点”。例如，它将在那里链接“Adobe.com”。这种或任何其他无意义的页面拆分似乎有点做作，我想知道 Google 是否会不喜欢它。
使用元关键字或描述进行分类
找到一些方法来应用更有趣的类别，例如基于地理或基于内容的类别。我在这里担心的是我不确定如何将这些类别全面应用于这么多网站。我想如果需要，我可以编写另一个分类器来尝试分析爬网中的页面内容。不过，这本身就是一项艰巨的工作。
使用 DMOZ 项目帮助对页面进行分类。

Wikipedia 和 StackOverflow 显然很好地解决了这个问题，允许用户对所有页面进行分类或标记。就我而言，我没有那么奢侈，但我想找到最好的选择。

这个问题的核心是 Google 如何响应不同的导航结构。它会惩罚那些以程序化/无意义的方式创建网页的人吗？或者，只要一切都通过链接连接，它就不管了吗？

【问题讨论】：

标签： seo web web-crawler

【解决方案1】：

Google PageRank 不会因为您在一个页面上拥有超过 100 个链接而对您进行处罚。但是每个超过某个阈值的链接在 PageRank 算法中的价值/重要性都会降低。

引用 SEOMOZ 和 Matt Cutts：

你会受到处罚吗？

在我们深入挖掘之前，我想明确指出 100-link 限制从来都不是惩罚的情况。在 2007 年 8 月的一次采访中，兰德引用马特·卡茨的话说：

“将链接数保持在 100 以下”在技术中指南部分，而不是质量指南部分。这意味着如果您有 101 或 102 个链接，我们不会删除页面页。将此视为经验法则。

当时，很可能谷歌在某一点之后开始忽略链接，但最坏的情况是这使那些后 100 个链接无法通过 PageRank。页面本身不会被取消索引或受到惩罚。

所以真正的问题是如何让 Google 认真对待您的所有链接。为此，您可以生成一个 XML 站点地图供 Google 抓取（您可以拥有静态的 sitemap.xml 文件，也可以动态生成其内容）。您需要阅读 Google 网站管理员工具帮助文档的 About Sitemaps 部分。

就像页面上有太多链接是一个问题一样，XML 站点地图文件中有太多链接也是一个问题。您需要做的是对您的 XML 站点地图进行分页。 Jeff Atwood 谈到 StackOverflow 如何实现这一点：The Importance of Sitemaps。 Jeff 在StackOverflow podcast #24 上也讨论了同样的问题。

同样，这个概念也适用于Bing。

【讨论】：

您对划分链接的不同方法有何看法。 Google 会在意某些部门比其他部门更有意义吗？
我们没有体验过一种排序顺序比另一种排序顺序更好。只需遵循 Google 的指导方针，即每个站点地图文件不超过 10MB 或更少，每个文件不超过 50,000 个 URL。顺便说一句，您实际上可以告诉 Google sitemap.xml 文件中每个链接的优先级。