使用 Map/Reduce 进行 Lucene 索引和搜索 [重复]

【问题标题】：Lucene Indexing and searching with Map/Reduce [duplicate]使用 Map/Reduce 进行 Lucene 索引和搜索 [重复]
【发布时间】：2011-06-15 03:54:30
【问题描述】：

可能重复：
instant searching in petabyte of data…

如何在Lucene索引和搜索中使用HADOOP的Map/Reduce????

【问题讨论】：

你能具体说明一下你的问题吗？
stackoverflow.com/questions/4791602/…
如果你已经发布了你的问题，为什么你会重新发布它？

标签： java search indexing lucene hadoop

【解决方案1】：

我能找到的最接近你的是Katta：

Katta 是一个分布式应用程序，在许多商品硬件服务器上运行，非常类似于 Hadoop MapReduce、Hadoop DFS、HBase、Bigtable 或 Hypertable。

(...)

Katta 支持其 lucene 实现的分布式评分 - 这是因为我们不希望术语分布在所有分片上完全平衡。

在 Katta 中完成的每个搜索查询最终都是两次网络往返：首先我们从所有节点获取查询的文档频率，然后在第二次旅行中将此值和搜索查询传递给所有节点。请注意，我们还提供了一种简单的计数方法，它只计算与查询匹配的文档，但在一次网络往返中进行。

【讨论】：