【发布时间】:2012-05-16 05:04:05
【问题描述】:
我正在创建一个网站,该网站将对 Internet 上数十万个其他网站的隐私政策进行审查。它的初始内容是基于我在CommonCrawl 50 亿页面的网页转储和analyzing all the privacy policies 中运行的脚本,以识别某些特征(例如“出售您的个人信息”)。
根据SEO MOZ Beginner's Guide to SEO:
搜索引擎往往只抓取任何给定页面上的大约 100 个链接。 这种宽松的限制对于减少垃圾邮件和保存 排名。
我想知道什么是创建导航网络的聪明方法,它不会留下孤立的页面,但仍然可以避免他们所说的这种 SEO 惩罚。我有几个想法:
- 创建按字母顺序排列的页面(或 Google Sitemap .xml 的),例如“以 Ado* 开头的站点”。例如,它将在那里链接“Adobe.com”。这种或任何其他无意义的页面拆分似乎有点做作,我想知道 Google 是否会不喜欢它。
- 使用元关键字或描述进行分类
- 找到一些方法来应用更有趣的类别,例如基于地理或基于内容的类别。我在这里担心的是我不确定如何将这些类别全面应用于这么多网站。我想如果需要,我可以编写另一个分类器来尝试分析爬网中的页面内容。不过,这本身就是一项艰巨的工作。
- 使用 DMOZ 项目帮助对页面进行分类。
Wikipedia 和 StackOverflow 显然很好地解决了这个问题,允许用户对所有页面进行分类或标记。就我而言,我没有那么奢侈,但我想找到最好的选择。
这个问题的核心是 Google 如何响应不同的导航结构。它会惩罚那些以程序化/无意义的方式创建网页的人吗?或者,只要一切都通过链接连接,它就不管了吗?
【问题讨论】:
标签: seo web web-crawler