【问题标题】:What does a crawler seeds list contain?爬虫种子列表包含什么?
【发布时间】:2011-08-27 09:20:59
【问题描述】:

我一直在阅读有关如何实现爬虫的文章。 我知道我们从要访问的 URL 列表(种子列表)开始。 访问所有这些 URL 并将访问页面中的所有链接添加到列表(边界)。 那么我应该在这个种子列表中添加多少?我是否只需要添加尽可能多的 URL,并希望它们能让我访问 www 上的 URL,这是否真的保证我会在那里获得所有其他 URL? 或者有一些惯例可以做到这一点?我的意思是......像谷歌这样的搜索引擎是做什么的?

【问题讨论】:

    标签: search-engine web-crawler google-search seed


    【解决方案1】:

    基本上是这样,他们使用它们之间的连接(链接)制作了一个很大的网站列表。您的搜索引擎知道的网站越多越好。这里唯一的问题是能够使这个列表有用。也就是说,网站可能性的大列表并不意味着搜索结果集很好,因此您必须能够分辨出每个网页中的重要内容。

    但根据你的信息处理能力,没有必要停在某个地方。

    这并不能确保你会到达那里的每一个网址,但它基本上是抓取网络的唯一实用方法。

    【讨论】:

      猜你喜欢
      • 2012-08-08
      • 1970-01-01
      • 2012-01-07
      • 1970-01-01
      • 2015-02-28
      • 2019-11-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多