【发布时间】:2018-07-11 20:52:43
【问题描述】:
我在设置数据系统时试图获得一些建议。我想设置一个用于网络抓取的系统。它会定期爬取大概几十万个网站。
我知道 Nutch 并且使用过 Nutch,但是我想知道其他人是否知道比 Nutch 更好的爬虫。
我还使用 Elasticsearch 作为索引器,并且很难让 Nutch 与新版本的 ES 一起使用。
【问题讨论】:
标签: elasticsearch web-crawler nutch
我在设置数据系统时试图获得一些建议。我想设置一个用于网络抓取的系统。它会定期爬取大概几十万个网站。
我知道 Nutch 并且使用过 Nutch,但是我想知道其他人是否知道比 Nutch 更好的爬虫。
我还使用 Elasticsearch 作为索引器,并且很难让 Nutch 与新版本的 ES 一起使用。
【问题讨论】:
标签: elasticsearch web-crawler nutch
你可以看看StormCrawler是基于Apache Storm的,不仅是一个全功能的爬虫,而且专注于近实时的爬虫。 ES 通常非常更新,在撰写本文时,它支持 ES v6.1.1 (https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20),所以这对你有用。请记住,这是一种与 Nutch 不同的方法和技术,尽管它使用了 Apache Nutch 背后的一些想法。
此外,在https://github.com/BruceDone/awesome-crawler 中,您可以找到使用多种不同语言编写的大量爬虫的列表。
【讨论】: