【问题标题】:Have you indexed nutch crawl results using elasticsearch before?您以前是否使用过弹性搜索索引 nutch 抓取结果?
【发布时间】:2011-08-26 02:34:42
【问题描述】:

有没有人有幸为 nutch 编写自定义索引器以使用 elasticsearch 索引爬网结果?或者你知道任何已经存在的吗?

【问题讨论】:

    标签: lucene full-text-search web-crawler nutch elasticsearch


    【解决方案1】:

    我编写了一个模拟 Solr api 的 ElasticSearch 插件。使用这个插件和标准的 Nutch Solr 索引器,您可以轻松地将抓取的数据发送到 ElasticSearch。插件和如何与 Nutch 一起使用的示例可以在 GitHub 上找到:

    https://github.com/mattweber/elasticsearch-mocksolrplugin

    【讨论】:

      【解决方案2】:

      我知道 Nutch 将添加可插拔后端,很高兴看到它。我需要将 elasticsearch 与 Nutch 1.3 集成。代码张贴在这里。捎带 (src/java/org/apache/nutch/indexer/solr) 代码。

      https://github.com/ctjmorgan/nutch-elasticsearch-indexer

      【讨论】:

      • 我是java新手,所以我不知道如何在ubuntu上创建一个包然后重建它。我已经在 /home/peter/nutch/ 位置安装了 nutch,所以我不知道在哪里复制 ivy 文件和 java 文件。还有什么设置必须添加到常春藤文件??
      【解决方案3】:

      还没有这样做,但这绝对是可行的,但需要搭载 SOLR 代码 (src/java/org/apache/nutch/indexer/solr) 并使其适应 ElasticSearch。对 Nutch BTW 会是一个不错的贡献

      【讨论】:

      • 这就是我采取的方法。我已经编写了自己的 elasticsearch 索引器和自己的爬取过程。
      【解决方案4】:

      时间过去了,现在 Nucth 已经与 ElasticSearch 很好地集成了。 Here 是一个不错的教程。

      【讨论】:

        猜你喜欢
        • 2016-04-20
        • 1970-01-01
        • 1970-01-01
        • 2014-02-21
        • 2016-12-22
        • 1970-01-01
        • 1970-01-01
        • 2015-11-23
        • 1970-01-01
        相关资源
        最近更新 更多