【发布时间】:2019-04-02 07:28:28
【问题描述】:
Lucene 7.5.1 中的 TFIDFSimilarity、DefaultSimilarity 和 SweetSpotSimilarity 有什么区别?
我们如何在 Lucene 中实现 BM25F?
【问题讨论】:
标签: lucene ranking tf-idf relevance
Lucene 7.5.1 中的 TFIDFSimilarity、DefaultSimilarity 和 SweetSpotSimilarity 有什么区别?
我们如何在 Lucene 中实现 BM25F?
【问题讨论】:
标签: lucene ranking tf-idf relevance
TFIDFSimilarity - TF-IDF 相似性的抽象基类。一个相当简单的 tf-idf 实现。确切的算法有据可查:TFIDFSimilarity
DefaultSimilarity - 不再存在。在 5.0 中弃用,在 6.0 中删除。
ClassicSimilarity - 旧的默认相似度。 TFIDFSimilarity 的实现。增加tf、idf、长度范数和范数编码/解码等基线计算。
SweetSpotSimilarity - TFIDFSimilarity 的替代实现。扩展 ClassicSimilarity,主要改变计算长度范数的方式。
BM25Similarity - 当前默认的相似性实现。 Okapi BM25 的实现。
至于 BM25F,不知道它的实现,开箱即用。您可能需要修改 BM25Similarity 以适应该目的。这篇文章:BM25F in Lucene with BlendedTermQuery 可能会有所帮助。
【讨论】: