【发布时间】:2010-05-12 19:00:40
【问题描述】:
我需要从几个 lucene 索引中提取频率最高的术语,以将它们用于一些语义分析。
所以,我想获得前 30 个最常出现的术语(仍然没有决定阈值,我将分析结果)和它们的每个索引计数。我知道我可能会因为潜在地丢弃重复项而失去一些精度,但现在,可以说我可以接受。
所以对于建议的解决方案,(不用说也许)速度并不重要,因为我会进行静态分析,我会强调实现的简单性,因为我对 Lucene 和我无法理解它的一些概念..
我找不到任何类似的代码示例,所以所有具体的建议(代码、伪代码、代码示例的链接......)感谢所有的建议!
谢谢!
【问题讨论】:
标签: java lucene full-text-search indexing frequency