搜索引擎的典型爬取深度答案

【问题标题】：Typical crawling depth by search engines搜索引擎的典型爬取深度
【发布时间】：2012-07-13 13:13:33
【问题描述】：

当网站被搜索引擎（google、bing 等）抓取时，搜索引擎抓取到网站的典型最大深度是多少。我所说的深度，是指从首页跳转的次数。

谢谢，

【问题讨论】：

【解决方案1】：

这取决于您网站的整体排名，以及传入链接的排名，尤其是当它们没有指向您的主页时。

对于像 blekko 这样的小型搜索引擎的爬虫不会离外部链接的着陆点那么远，除非您的整体网站很棒或者您有很多来自很棒网站的链接。我们为排名较高的内容节省了爬取和索引的能量，所以如果我们估计一个页面的排名很差，我们不会打扰。

即使您的链接配置文件很差，Google 的抓取工具也可能会抓取相当长的距离 - 但即使他们知道的网址也比实际抓取的要多 10 倍。

【讨论】：

【解决方案2】：

如果你想爬遍整个世界，那么 19 深度就足够了。因为整个世界覆盖在 19 个深度。但是，如果您想抓取特定域或国家/地区，那么 10 深度就足够了。

我从一篇论文中找到了这个信息。用于开发墨卡托。

谢谢莫希尔阿拉姆王子

【讨论】：

问题问的是，“主要搜索引擎实际抓取的深度是多少？”，而不是“需要爬多深才能找到所有页面？”这是一个有趣的主张，需要深入 10 层。您提到的论文的链接会有所帮助。