【问题标题】:Extracting collocation words from a Lucene Index从 Lucene 索引中提取搭配词
【发布时间】:2014-02-05 16:28:21
【问题描述】:

我有一个存储在 Lucene 中的文档索引。我需要从索引中提取所有搭配词及其频率。我知道有各种算法可以检测给定文档中的搭配,但我不知道有任何现有的库可以与 Lucene 一起专门用于此任务。有人知道图书馆吗?

我知道如何从 lucene 索引中仅提取二元组,但并非所有二元组当然都是搭配词。

【问题讨论】:

    标签: solr lucene text-analysis


    【解决方案1】:

    使用Shingles 会生成所有n-gram 怎么样。然后,使用构面将这些 ngram 带回计数?或者从管理部分进行术语分析。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-13
      • 2011-03-19
      • 1970-01-01
      • 2022-01-10
      相关资源
      最近更新 更多