【问题标题】:Get highest frequency terms from Lucene index从 Lucene 索引中获取最高频率项
【发布时间】:2010-05-12 19:00:40
【问题描述】:

我需要从几个 lucene 索引中提取频率最高的术语,以将它们用于一些语义分析。

所以,我想获得前 30 个最常出现的术语(仍然没有决定阈值,我将分析结果)和它们的每个索引计数。我知道我可能会因为潜在地丢弃重复项而失去一些精度,但现在,可以说我可以接受。

所以对于建议的解决方案,(不用说也许)速度并不重要,因为我会进行静态分析,我会强调实现的简单性,因为我对 Lucene 和我无法理解它的一些概念..

我找不到任何类似的代码示例,所以所有具体的建议(代码、伪代码、代码示例的链接......)感谢所有的建议!

谢谢!

【问题讨论】:

    标签: java lucene full-text-search indexing frequency


    【解决方案1】:

    一个非常简单的方法是使用Luke。在“概述”选项卡上,有一个“显示热门术语”按钮,可用于您需要的内容。

    【讨论】:

    • 就是这样。您可以复制粘贴甚至导出结果。
    【解决方案2】:

    看看这个: http://sujitpal.blogspot.com/2009/02/summarization-with-lucene.html

    此页面中的类具有computeTopTermQuery 方法,您应该可以轻松地对其进行改造以遍历多个索引。

    【讨论】:

    • 谢谢!正是我需要的!
    • 您好!我使用 lucene 4.4 所以它没有 terms() 方法?请帮帮我!
    • @Thangnv 您可能想为此打开一个单独的线程,或通过电子邮件发送 Lucene Java 邮件列表。我手头没有运行 Lucene 4.4。这些天时间一直供不应求;-(
    猜你喜欢
    • 1970-01-01
    • 2019-09-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-02-22
    相关资源
    最近更新 更多