【发布时间】:2014-01-08 21:12:22
【问题描述】:
如何使用 Lucene (4.6) 计算给定短语的文档频率?
我找到了一种方法来计算一个术语的 DF。
短语(1-5 个单词)有没有像这样优雅的东西?
val reader = IndexReader.open(IndexProperties.index)
println("Number of docs in index : " + reader.maxDoc())
val t = new Term("text", "братишка")
val df = reader.docFreq(t)
println("DF = " + df)
UPD:短语我指的是文档中必须出现的一个简短的术语序列。而且他们必须在正文中一个接一个地走。
【问题讨论】:
标签: lucene information-retrieval