构建网络爬虫答案

【问题标题】：building a web crawler构建网络爬虫
【发布时间】：2013-09-27 11:23:57
【问题描述】：

我目前正在开发一个带有内置网络爬虫的自定义搜索引擎。出于某种原因，我不喜欢多线程，到目前为止，我的索引器是以单线程方式编码的。现在我对正在构建的爬虫有一个小困境。任何人都可以建议哪个更好，抓取 1 页然后对其进行索引，或者抓取 1000 多个页面并缓存，然后索引？

【问题讨论】：

【解决方案1】：

网络很慢（相对于 CPU）。通过并行化爬虫，您将看到速度显着提高。否则，您的应用程序将花费大部分时间等待网络 IO 完成。您可以使用多线程和阻塞 IO，也可以使用单线程异步 IO。

此外，与一次索引一个文档相比，大多数索引算法在批量文档上的性能会更好。

【讨论】：

【解决方案2】：

更好？在什么方面？就速度而言，我无法预见明显的差异。就健壮性（从灾难性故障中恢复）而言，最好在抓取每个页面时对其进行索引。

【讨论】：

【解决方案3】：

如果您对爬虫很认真，我强烈建议您“加入”多线程。基本上，您会希望始终运行至少一个索引器和至少一个爬虫（两者都可能有多个）。除其他外，这最大限度地减少了启动和关闭开销（例如初始化和释放数据结构）。

【讨论】：

【解决方案4】：

不使用线程是可以的。但是，如果您仍然想要性能，则需要处理异步 IO。我建议查看 Boost.ASIO link text。使用异步 IO 将使您的困境“无关紧要”，因为这无关紧要。另外作为奖励，如果您将来决定使用线程，那么告诉 Boost.Asio 应用多个线程来解决问题是微不足道的。

【讨论】：