【问题标题】:Crawlers other than Nutch that work with Elasticsearch与 Elasticsearch 配合使用的 Nutch 以外的爬虫
【发布时间】:2018-07-11 20:52:43
【问题描述】:

我在设置数据系统时试图获得一些建议。我想设置一个用于网络抓取的系统。它会定期爬取大概几十万个网站。

我知道 Nutch 并且使用过 Nutch,但是我想知道其他人是否知道比 Nutch 更好的爬虫。

我还使用 Elasticsearch 作为索引器,并且很难让 Nutch 与新版本的 ES 一起使用。

【问题讨论】:

    标签: elasticsearch web-crawler nutch


    【解决方案1】:

    你可以看看StormCrawler是基于Apache Storm的,不仅是一个全功能的爬虫,而且专注于近实时的爬虫。 ES 通常非常更新,在撰写本文时,它支持 ES v6.1.1 (https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20),所以这对你有用。请记住,这是一种与 Nutch 不同的方法和技术,尽管它使用了 Apache Nutch 背后的一些想法。

    此外,在https://github.com/BruceDone/awesome-crawler 中,您可以找到使用多种不同语言编写的大量爬虫的列表。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-05-15
      • 2015-01-23
      • 2018-06-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多