【问题标题】:Typical crawling depth by search engines搜索引擎的典型爬取深度
【发布时间】:2012-07-13 13:13:33
【问题描述】:

当网站被搜索引擎(google、bing 等)抓取时,搜索引擎抓取到网站的典型最大深度是多少。我所说的深度,是指从首页跳转的次数。

谢谢,

【问题讨论】:

    标签: search-engine web-crawler


    【解决方案1】:

    这取决于您网站的整体排名,以及传入链接的排名,尤其是当它们没有指向您的主页时。

    对于像 blekko 这样的小型搜索引擎的爬虫不会离外部链接的着陆点那么远,除非您的整体网站很棒或者您有很多来自很棒网站的链接。我们为排名较高的内容节省了爬取和索引的能量,所以如果我们估计一个页面的排名很差,我们不会打扰。

    即使您的链接配置文件很差,Google 的抓取工具也可能会抓取相当长的距离 - 但即使他们知道的网址也比实际抓取的要多 10 倍。

    【讨论】:

      【解决方案2】:

      如果你想爬遍整个世界,那么 19 深度就足够了。因为整个世界覆盖在 19 个深度。但是,如果您想抓取特定域或国家/地区,那么 10 深度就足够了。

      我从一篇论文中找到了这个信息。用于开发墨卡托。

      谢谢 莫希尔阿拉姆王子

      【讨论】:

      • 问题问的是,“主要搜索引擎实际抓取的深度是多少?”,而不是“需要爬多深才能找到所有页面?”这是一个有趣的主张,需要深入 10 层。您提到的论文的链接会有所帮助。
      猜你喜欢
      • 2011-05-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多