【问题标题】:Word vectors from a whole doc2vec model vs. word vectors from a particular document来自整个 doc2vec 模型的词向量与来自特定文档的词向量
【发布时间】:2019-05-01 16:37:26
【问题描述】:
我使用默认的 word2vec 训练 (dm=1) 训练了一个 gensim 的 Doc2Vec 模型。我可以从 model.wv.vectors 中的全局模型中获取词向量。
但是documentation 表示同一个词(示例中的“叶子”)不会具有相同的向量,具体取决于它出现的文档上下文。
所以我有点困惑:在 model.wv.vectors 中,例如,“叶子”这个词对于用于训练模型的所有文档是否具有相同的向量(这可能与我的理解相矛盾从文档中)?如果没有,如何从特定文档中获取词向量?
【问题讨论】:
标签:
gensim
word2vec
doc2vec
【解决方案1】:
该文档具有误导性。词标记'leaves' 在该模型中将只有一个词向量。
我猜该评论的作者可能意味着在 PV-DM 模式 (dm=1) 下的模型训练期间,训练预测将受到以下因素组合的影响该文本的词向量和“浮动”文档向量(以及上下文窗口中的其他相邻词向量)。但是,一个词只有一个向量,描述混乱。