【发布时间】:2018-08-18 23:37:39
【问题描述】:
我想使用新的文本数据集将新词添加到经过训练的 gensim word2vec 模型中。但是,我想保留旧词嵌入,只需将数据集中的新词添加到现有模型中。这意味着使用新文本数据集对旧模型进行简单的重新训练不是一种选择,因为它将重新调整也在新文本数据集中的先前词嵌入的向量。你能就这项任务提出任何建议吗?我想要类似 Gensim 的 doc2vec 推断功能,您可以在其中为模型提供一些文本输入,它会提供一个向量作为输出。谢谢。
【问题讨论】:
-
“重新调整前一个词嵌入的向量”是什么意思?因为即使你只是添加新词,当前词的值也会改变,因为它们与新词相关。
-
平均词向量对你有用吗?对于看不见的单词,您可以平均
window和所有出现的单词向量。我相信在某个时间点infer_vector平均词向量得到一个文档向量。
标签: neural-network word2vec gensim