【发布时间】:2021-09-14 00:23:33
【问题描述】:
我用两个数据集训练了两个版本的 doc2vec 模型。
第一个数据集包含 2400 个文档,第二个数据集包含 3000 个文档,包括第一个数据集中使用的文档。
举个例子,
数据集 1 = doc1, doc2, ... doc2400
数据集 2 = doc1, doc2, ... doc2400, doc2401, ... doc3000
我认为两个 doc2vec 模型应该在 doc1 和 doc2 之间返回相同的相似度分数,但是它们返回的分数不同。
即使数据集包含相同的文档,doc2vec 模型的结果是否也会发生变化?
【问题讨论】: