【问题标题】:Best way to compute DF of a phrase with Lucene使用 Lucene 计算短语 DF 的最佳方法
【发布时间】:2014-01-08 21:12:22
【问题描述】:

如何使用 Lucene (4.6) 计算给定短语的文档频率?

我找到了一种方法来计算一个术语的 DF。
短语(1-5 个单词)有没有像这样优雅的东西?

val reader = IndexReader.open(IndexProperties.index)
println("Number of docs in index : " + reader.maxDoc())
val t = new Term("text", "братишка")
val df = reader.docFreq(t)
println("DF = " + df)

UPD:短语我指的是文档中必须出现的一个简短的术语序列。而且他们必须在正文中一个接一个地走。

【问题讨论】:

    标签: lucene information-retrieval


    【解决方案1】:

    Java 代码:

    String phrase = "your phrase";
    Query q = new Queryparser(Version.LUCENE_46, "field", analyzer).parse(phrase);
    int df = new IndexSearher(reader).search(q, null).scoreDocs.length;
    

    【讨论】:

    • 通过这种实现,我得到的结果没有短语中的任何单词。您指的是哪个分析仪?
    • 应该与您在索引期间使用的分析器相同。例如标准分析仪。我不明白您所说的“我得到的结果没有任何文字......”是什么意思。我的示例为您返回术语“您的”和“短语”的 DF,其中术语短语正好在术语“您的”之后。
    【解决方案2】:

    看起来 PhraseQuery 是解决方案。

    for (termString <- splitted) {
      pq.add(new Term(IndexProperties.textField, termString))
    }
    pq.setSlop(0)
    
    val collector = TopScoreDocCollector.create(5000, true)
    searcher.search(pq, collector)
    

    splitted : Array[String] 必须是分析器标记化的结果也很重要。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-25
      • 1970-01-01
      • 1970-01-01
      • 2021-02-05
      • 2012-04-04
      • 2021-11-13
      相关资源
      最近更新 更多