gensim 实现中 DBOW doc2vec 的 word2vec 映射来自哪里？答案

【问题标题】：Where is word2vec mapping coming from for DBOW doc2vec in gensim implementation?gensim 实现中 DBOW doc2vec 的 word2vec 映射来自哪里？
【发布时间】：2019-06-06 18:51:00
【问题描述】：

我正在尝试将 gensim 用于 doc2vec 和 word2vec。

由于 PV-DM 方法可以同时生成 word2vec 和 doc2vec，我认为 PV-DM 是合适的模型。

所以，我通过为 PV-DM 指定 dm=1 使用 gensim 创建了一个模型

我的问题如下：

当我在 Doc2vec 对象上调用 train 时，word2vec 模型是否会与 doc2vec 一起训练？？
似乎属性 wv 包含 word2vec，甚至在训练之前就可用。这是 word2vec 的静态版本吗？
我还创建了 DBOW 模型并注意到它还包含wv。这也是我在上一个问题中提到的 word2vec 的静态版本吗？

【问题讨论】：

标签： gensim word2vec doc2vec

【解决方案1】：

(1) 是的，词向量在 PV-DM 模式下与文档向量同时训练。

(2) 训练发生前wv 属性的内容是随机初始化的、未经训练的词向量。（就像在 word2vec 中一样，所有向量都获得随机的、低幅度的起始位置。）

(3) 在普通 PV-DBOW 模式 (dm=0) 中，由于代码共享，wv 向量仍然被分配和初始化——但从未训练过。在 PV-DBOW 训练结束时，wv 词向量将保持不变，因此是随机的/无用的。（他们根本不参加培训。）

如果您启用可选的 dbow_words=1 参数，则 skip-gram 词向量训练将与普通 PV-DBOW 训练混合。这将以交错的方式完成，因此每个目标词（要预测）将用于训练 PV-DBOW 文档向量，然后是相邻的上下文词向量。因此，wv 词向量将被训练，并在“相同空间”中与文档向量进行有意义的比较。

使用此选项，训练将比普通 PV-DBOW 花费更长的时间（与window 大小有关）。对于任何特定的最终目的，这种模式下的 doc-vector 可能会更好（如果 word-to-word 预测有效地帮助以有用的方式扩展语料库）或更糟（如果模型在 word-to 上花费了很多精力-word 预测有效地稀释/压倒了 full-doc doc-to-word 预测中的其他模式。

【讨论】：