Web 爬虫为因特网搜索引擎提供信息,它们获取 Web 上的文档,并允许搜索引擎创索引,用以说明哪些文档中有哪些词存在。搜索引擎是 Web 机器人的主要来源——让我们来快速了解一下它们是如何工作的。
1. 大格局
现在,Web 上有数十亿可供访问的页面,搜索引擎已经成为因特网用户查找信息不可缺少的工具。
面对数十亿的 Web 页面,和数百万要查找信息的用户,搜索引擎要用复杂的爬虫来获取这数十亿 Web 页面,还要使用复杂的查询引擎来处理数百万用户产生的查询负荷。
很显然,大型爬虫得更聪明一些,要对请求进行并行处理,并使用大量机器来完成这项任务。但由于其规模庞大,爬行整个 Web 仍然是件十分艰巨的任务。
2. 现代搜索引擎结构
现在的搜索引擎都构建了一些名为“全文索引”的复杂本地数据库,装载了全世界的 Web 页面,以及这些页面所包含的内容。这些索引就像 Web 上所有文档的卡片目录一样。
搜索引擎爬虫会搜集 Web 页面,把它们带回家,并将其添加到全文索引中去。同时,搜索引擎用户会通过 HotBot(http://www.hotbot.com)或 Google(http://www.google.com)这样的 Web 搜索网关对全文索引进行查询。Web 页面总是在不断地发生变化,而且爬行一大块 Web 要花费很长的时间,所以全文索引充其量也就是 Web 的一个快照。