Gensim Doc2Vec 模型根据数据集返回不同的余弦相似度答案

【问题标题】：Gensim Doc2Vec model returns different cosine similarity depending on the datasetGensim Doc2Vec 模型根据数据集返回不同的余弦相似度
【发布时间】：2021-09-14 00:23:33
【问题描述】：

我用两个数据集训练了两个版本的 doc2vec 模型。

第一个数据集包含 2400 个文档，第二个数据集包含 3000 个文档，包括第一个数据集中使用的文档。

举个例子，

数据集 1 = doc1, doc2, ... doc2400

数据集 2 = doc1, doc2, ... doc2400, doc2401, ... doc3000

我认为两个 doc2vec 模型应该在 doc1 和 doc2 之间返回相同的相似度分数，但是它们返回的分数不同。

即使数据集包含相同的文档，doc2vec 模型的结果是否也会发生变化？

【问题讨论】：

标签： gensim word2vec doc2vec

【解决方案1】：

是的，对训练集的任何添加都会改变相关结果。

此外，正如 Gensim 常见问题解答中所解释的，即使使用完全相同的数据进行重新训练，通常也会导致每个训练文档的结束坐标不同，尽管每次运行都应该具有同等的用处：

https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&-FAQ#q11-ive-trained-my-word2vec--doc2vec--etc-model-repeatedly-using-the-exact-same-text-corpus-but-the-vectors-are-different-each-time-is-there-a-bug-or-have-i-made-a-mistake-2vec-training-non-determinism

在运行之间应该保持大致相同的是每个文档周围的社区。也就是说，添加一些额外的培训文档不应改变某些候选文档与某个目标文档“非常接近”或“比其他文档更接近”的一般结果 - 除非（1）新文档可能包含一些更接近的文档； (2) 根据上面的常见问题解答，运行之间存在少量“抖动”。

如果事实上您看到文档的相关邻域和前 N 个邻域发生了很多变化，无论是重复运行还是运行带有少量额外数据的小增量，则可能存在其他问题培训。

特别是，2400 个文档对于 Doc2Vec 来说是一个非常小的数据集 - 较小的数据集可能需要更小的 vector_size 和/或更多 epochs 和/或其他调整才能获得更可靠的结果，即使这样，也可能不会在更大（数万到数百万个文档）数据集上展示该算法的优势。

【讨论】：

谢谢！现在我明白相似度分数是相对于数据集的。根据您的建议，我想修改 vector_size 或 epochs。您能否建议将 vector_size 减少到何种程度？当前模型的向量大小为 200。我也想知道 Doc2Vec 模型的数据大小是否足够。
没有固定的经验法则 - 您必须尝试替代值，然后看看哪个效果好。基于Doc2Vec 算法的已发表作品倾向于使用数万到数百万个文档——其中每个文档包含数百到数千个单词，向量维度从 100 到 300 不等。较小的数据集（以docs 或总字数）可能需要尝试较低的值，但只有实验才能说出最适合您的数据和目标的值。