与 Gensim Doc2Vec 最不相似答案

【问题标题】：Least Similar with Gensim Doc2Vec与 Gensim Doc2Vec 最不相似
【发布时间】：2020-06-01 20:01:45
【问题描述】：

most_similar 方法查找前 N 个最相似的词。

有没有找到N个最少相似词的方法或方法？

【问题讨论】：

【解决方案1】：

您可以使用与完整向量集一样大的topn 参数，按相似度获得所有向量的完整排名列表。然后只看最后一个 N。例如：

import sys
all_sims = vec_model.most_similar(target_value, topn=sys.maxsize)
last_10 = list(reversed(all_sims[-10:]))

但是，请注意：

这将需要更多的排序，并且暂时需要更多的内存，以在将其修剪为最后几个之前返回完整列表
对于人类感知而言，无论是文字还是文档，这些都不太可能特别有意义。也就是说，在我们感知的意义上，它不太可能是一个词或文档的“对立面”。这种对立面，或者实际上任何与原点有趣对比的单词/文档，通常会非常接近高维空间中的原点，只是以某种有意义的方式移动。（例如，一个词的反义词与该词的距离远比它所能找到的最不相似的词更接近。）

【讨论】：