【问题标题】:Gensim Doc2Vec model returns different cosine similarity depending on the datasetGensim Doc2Vec 模型根据数据集返回不同的余弦相似度
【发布时间】:2021-09-14 00:23:33
【问题描述】:

我用两个数据集训练了两个版本的 doc2vec 模型。

第一个数据集包含 2400 个文档,第二个数据集包含 3000 个文档,包括第一个数据集中使用的文档。

举个例子,

数据集 1 = doc1, doc2, ... doc2400

数据集 2 = doc1, doc2, ... doc2400, doc2401, ... doc3000

我认为两个 doc2vec 模型应该在 doc1 和 doc2 之间返回相同的相似度分数,但是它们返回的分数不同。

即使数据集包含相同的文档,doc2vec 模型的结果是否也会发生变化?

【问题讨论】:

    标签: gensim word2vec doc2vec


    【解决方案1】:

    是的,对训练集的任何添加都会改变相关结果。

    此外,正如 Gensim 常见问题解答中所解释的,即使使用完全相同的数据进行重新训练,通常也会导致每个训练文档的结束坐标不同,尽管每次运行都应该具有同等的用处:

    https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&-FAQ#q11-ive-trained-my-word2vec--doc2vec--etc-model-repeatedly-using-the-exact-same-text-corpus-but-the-vectors-are-different-each-time-is-there-a-bug-or-have-i-made-a-mistake-2vec-training-non-determinism

    在运行之间应该保持大致相同的是每个文档周围的社区。也就是说,添加一些额外的培训文档不应改变某些候选文档与某个目标文档“非常接近”或“比其他文档更接近”的一般结果 - 除非(1)新文档可能包含一些更接近的文档; (2) 根据上面的常见问题解答,运行之间存在少量“抖动”。

    如果事实上您看到文档的相关邻域和前 N 个邻域发生了 很多 变化,无论是重复运行还是运行带有少量额外数据的小增量,则可能存在其他问题培训。

    特别是,2400 个文档对于 Doc2Vec 来说是一个非常小的数据集 - 较小的数据集可能需要更小的 vector_size 和/或更多 epochs 和/或其他调整才能获得更可靠的结果,即使这样,也可能不会在更大(数万到数百万个文档)数据集上展示该算法的优势。

    【讨论】:

    • 谢谢!现在我明白相似度分数是相对于数据集的。根据您的建议,我想修改 vector_size 或 epochs。您能否建议将 vector_size 减少到何种程度?当前模型的向量大小为 200。我也想知道 Doc2Vec 模型的数据大小是否足够。
    • 没有固定的经验法则 - 您必须尝试替代值,然后看看哪个效果好。基于Doc2Vec 算法的已发表作品倾向于使用数万到数百万个文档——其中每个文档包含数百到数千个单词,向量维度从 100 到 300 不等。较小的数据集(以docs 或总字数)可能需要尝试较低的值,但只有实验才能说出最适合您的数据和目标的值。
    猜你喜欢
    • 2020-08-19
    • 1970-01-01
    • 2015-09-30
    • 2018-02-19
    • 2019-05-21
    • 2020-08-12
    • 2020-07-18
    • 2022-01-07
    • 1970-01-01
    相关资源
    最近更新 更多