【问题标题】:How I can get vector from output matrix in FastText ?如何从 FastText 的输出矩阵中获取向量?
【发布时间】:2018-12-05 09:14:12
【问题描述】:

在这项研究中作者发现,Word2Vec 生成两种嵌入(IN & OUT)。

https://arxiv.org/abs/1602.01137

好吧,您可以使用 gensim word2vec 中的 syn1 属性轻松获得。但是在 gensim fastText 的情况下, syn1 确实存在,但是由于 fastText 的概念是基于子词的,因此无法通过匹配索引从输出矩阵中获取词的向量。你知道用输出矩阵计算向量的其他方法吗??

【问题讨论】:

    标签: word2vec word-embedding fasttext


    【解决方案1】:

    在 FastText 中,单词的向量是以下组合:

    • 全词向量,如果存在的话;和
    • 所有子词向量

    您可以在以下位置查看返回向量的 gensim 方法,如有必要,由子词组成:

    https://github.com/RaRe-Technologies/gensim/blob/2ccc82bf50bcfbee44932c160db076a873cf893e/gensim/models/keyedvectors.py#L1970

    (我认为这种方法可能有一个错误,与原始的 FastText 方法相比,这种 gensim 方法也许应该将子词向量添加到整个词向量中,即使当可以使用全词向量。)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-05-19
      • 1970-01-01
      • 2014-12-29
      • 1970-01-01
      • 2017-11-18
      • 1970-01-01
      • 2021-03-20
      • 1970-01-01
      相关资源
      最近更新 更多