【发布时间】:2019-08-30 16:58:52
【问题描述】:
我不明白在 DBOW 模式 (dm=0) 下使用 gensim 的 doc2vec 训练过程中词向量是如何参与的。我知道默认情况下它被 dbow_words=0 禁用。但是当我们将dbow_words 设置为 1 时会发生什么?
在我对 DBOW 的理解中,上下文词是直接从段落向量中预测出来的。所以模型的唯一参数就是Np维的段落向量加上分类器的参数。
但多个消息来源暗示在 DBOW 模式下可以共同训练单词和文档向量。例如:
- An Empirical Evaluation of doc2vec with Practical Insights into Document Embedding Generation 的第 5 节
- 这个答案:How to use Gensim doc2vec with pre-trained word vectors?
那么,这是怎么做到的呢? 任何澄清将不胜感激!
注意:对于 DM,段落向量与词向量进行平均/连接以预测目标词。在这种情况下,很明显单词向量是与文档向量同时训练的。还有N*p + M*q + classifier 参数(其中M 是词汇大小,q 词向量空间暗淡)。
【问题讨论】: