【问题标题】:What is the best way to run Lucene/Solr on Hadoop?在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么?
【发布时间】:2011-09-06 07:19:38
【问题描述】:

我们在具有 1TB EBS 卷的 Amazon Web Services EC2 实例上运行 Solr 来存储索引,以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是,我们的索引很快就会超过 1TB,我真的不想处理条带化多个 EBS 卷来保存索引。此外,重新生成索引非常慢。我想将索引生成(可能还有托管)转移到 Hadoop,最好转移到 Amazon 的 Elastic MapReduce,尽管如果需要我可以设置单独的 Hadoop 服务器。我们使用 RightScale,因此我们可以使用他们的 ServerTemplates 库。

在 Hadoop 上开始使用 Lucene/Solr 的最佳起点是什么?

【问题讨论】:

  • 你看过 Katta (katta.sourceforge.net) 吗?它提供了分片和分发 Lucene 缺陷的方法。
  • 我真的希望我的索引创建速度能够加快,而不仅仅是交付。看起来 Katta 可以帮助交付,但不能帮助创造?

标签: lucene solr hadoop mapreduce elastic-map-reduce


【解决方案1】:

您的索引是否已分片?您可以对索引进行分片并在多个实例中分配分片。

【讨论】:

    【解决方案2】:

    看看 ElasticSearch。您可以从 Hadoop 索引到 ElasticSearch 以进行批量加载。 Infochimps 已经开源了一个名为 Wonderdog 的 ElasticSearch 批量索引器,您可以查看它来进行概念验证。

    https://github.com/infochimps/wonderdog http://www.elasticsearch.com

    它是云友好的(请参阅 cloud-aws 插件以了解发现),并且可以通过添加节点来保存索引来扩大/缩小规模。

    【讨论】:

      猜你喜欢
      • 2012-08-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-01-05
      • 2013-06-28
      • 1970-01-01
      相关资源
      最近更新 更多