与 Elasticsearch 配合使用的 Nutch 以外的爬虫

【问题标题】：Crawlers other than Nutch that work with Elasticsearch与 Elasticsearch 配合使用的 Nutch 以外的爬虫
【发布时间】：2018-07-11 20:52:43
【问题描述】：

我在设置数据系统时试图获得一些建议。我想设置一个用于网络抓取的系统。它会定期爬取大概几十万个网站。

我知道 Nutch 并且使用过 Nutch，但是我想知道其他人是否知道比 Nutch 更好的爬虫。

我还使用 Elasticsearch 作为索引器，并且很难让 Nutch 与新版本的 ES 一起使用。

【问题讨论】：

标签： elasticsearch web-crawler nutch

【解决方案1】：

你可以看看StormCrawler是基于Apache Storm的，不仅是一个全功能的爬虫，而且专注于近实时的爬虫。 ES 通常非常更新，在撰写本文时，它支持 ES v6.1.1 (https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20)，所以这对你有用。请记住，这是一种与 Nutch 不同的方法和技术，尽管它使用了 Apache Nutch 背后的一些想法。

此外，在https://github.com/BruceDone/awesome-crawler 中，您可以找到使用多种不同语言编写的大量爬虫的列表。

【讨论】：