【问题标题】:Relevance and Similarity Computation in Apache Lucene 7.5.x?Apache Lucene 7.5.x 中的相关性和相似性计算?
【发布时间】:2019-04-02 07:28:28
【问题描述】:

Lucene 7.5.1 中的 TFIDFSimilarity、DefaultSimilarity 和 SweetSpotSimilarity 有什么区别?

我们如何在 Lucene 中实现 BM25F?

【问题讨论】:

    标签: lucene ranking tf-idf relevance


    【解决方案1】:
    • TFIDFSimilarity - TF-IDF 相似性的抽象基类。一个相当简单的 tf-idf 实现。确切的算法有据可查:TFIDFSimilarity

    • DefaultSimilarity - 不再存在。在 5.0 中弃用,在 6.0 中删除。

    • ClassicSimilarity - 旧的默认相似度。 TFIDFSimilarity 的实现。增加tf、idf、长度范数和范数编码/解码等基线计算。

    • SweetSpotSimilarity - TFIDFSimilarity 的替代实现。扩展 ClassicSimilarity,主要改变计算长度范数的方式。

    • BM25Similarity - 当前默认的相似性实现。 Okapi BM25 的实现。

    至于 BM25F,不知道它的实现,开箱即用。您可能需要修改 BM25Similarity 以适应该目的。这篇文章:BM25F in Lucene with BlendedTermQuery 可能会有所帮助。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-10-05
    • 2020-01-25
    • 1970-01-01
    • 2013-08-21
    • 1970-01-01
    • 2011-12-27
    • 2019-04-17
    • 2016-10-03
    相关资源
    最近更新 更多