【问题标题】:Word vectors from a whole doc2vec model vs. word vectors from a particular document来自整个 doc2vec 模型的词向量与来自特定文档的词向量
【发布时间】:2019-05-01 16:37:26
【问题描述】:

我使用默认的 word2vec 训练 (dm=1) 训练了一个 gensim 的 Doc2Vec 模型。我可以从 model.wv.vectors 中的全局模型中获取词向量。 但是documentation 表示同一个词(示例中的“叶子”)不会具有相同的向量,具体取决于它出现的文档上下文。

所以我有点困惑:在 model.wv.vectors 中,例如,“叶子”这个词对于用于训练模型的所有文档是否具有相同的向量(这可能与我的理解相矛盾从文档中)?如果没有,如何从特定文档中获取词向量?

【问题讨论】:

    标签: gensim word2vec doc2vec


    【解决方案1】:

    该文档具有误导性。词标记'leaves' 在该模型中将只有一个词向量。

    我猜该评论的作者可能意味着在 PV-DM 模式 (dm=1) 下的模型训练期间,训练预测将受到以下因素组合的影响该文本的词向量和“浮动”文档向量(以及上下文窗口中的其他相邻词向量)。但是,一个词只有一个向量,描述混乱。

    【讨论】:

      猜你喜欢
      • 2016-10-31
      • 2018-05-10
      • 2018-05-16
      • 2018-10-02
      • 2019-08-30
      • 2013-02-20
      • 1970-01-01
      • 2021-11-20
      • 2018-01-20
      相关资源
      最近更新 更多