【问题标题】:What does Similarity Score mean in gensim?gensim中的相似度分数是什么意思?
【发布时间】:2021-09-20 16:37:46
【问题描述】:

我使用 Gensim 库来查找句子与段落集合(文本数据集)之间的相似性。我分别使用了余弦相似度、软余弦相似度和 Mover 度量。 Gensim 返回一个项目列表,包括 docid相似度得分。对于余弦相似度和软余弦相似度,我猜相似度分数是向量之间的余弦值。我说的对吗?

在 Gensim 文档中,他们写的是语义相关性,没有额外解释。我搜索了很多,但没有找到任何答案。请帮忙

【问题讨论】:

    标签: python text gensim sentence-similarity


    【解决方案1】:

    通常通过“相似性”,人们正在寻求一种衡量语义相关性的方法 - 但计算出的特定值是否能够实现这一点将取决于许多其他因素,例如训练数据的充分性和选择其他合适的参数。

    在每个代码上下文中,“相似性”的意义不亚于它的计算方式——通常是“向量表示之间的余弦相似度”。 (当没有其他提示时,它意味着不同的东西,“余弦相似度”通常是一个安全的开始假设。)

    但实际上:每次使用时“相似性”的含义不亚于该代码路径的文档/源代码规定的任何内容。

    (我意识到这似乎是一个间接且不令人满意的答案。如果在 Gensim 源/文档/示例中的上下文中有特定用途,其含义不清楚,您可以指出这些,我也许可以澄清更多。 )

    【讨论】:

    • 谢谢 gojomo,你解释得很好。请查看此链接radimrehurek.com/gensim/auto_examples/core/… 并搜索“语义相关性”。这里不做解释。
    • 我对该页面上使用“语义相关性”的感觉是,它旨在强调“只是单词所表示的”,没有其他潜在的输入。这不是我写的,但我认为它的措辞——“……关于他们的文本(词)的明显语义相关性”——可以粗略地解读为:“……关于仅从运行中推断出来的意义指示——词”。
    • 作为结论,我们可以说语义相似度取决于我们使用的度量吗?例如,使用余弦相似度时,语义相似度是指向量之间的余弦,或者当我们使用 Mover 度量时,相似度得分是指 Mover 的值?
    • 我认为这些概念有足够的“松散性”,作者应该尝试在上下文中为它们的目的很好地定义它们。 (没有更多上下文,我不想做出任何严格的声明。)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-03-17
    • 1970-01-01
    • 2011-08-12
    • 2017-06-11
    • 2018-03-05
    相关资源
    最近更新 更多