【问题标题】:Why no word embeddings (Glove, word2vecetc) used in first attention paper?为什么在 first attention 论文中没有使用词嵌入(Glove、word2vecetc)?
【发布时间】:2019-03-12 12:30:14
【问题描述】:
【问题讨论】:
标签:
nlp
word-embedding
machine-translation
attention-model
【解决方案1】:
简而言之 - 该模型确实使用了词嵌入,它们只是不像 Glove 或 word2vec 那样预先训练过的嵌入;相反,嵌入是随机初始化的,并与网络的其余部分一起进行联合训练。
在原始 Bahdanau 等人的 A.2 节中对网络的完整描述中。在论文中,您将看到为编码器和解码器描述的词嵌入矩阵E。 B.1 节也描述了它们是如何初始化的。
在您有足够数据的情况下,这通常与预训练嵌入一样好或更好。也就是说,在资源匮乏的环境中,它可以帮助使用预先训练的嵌入来初始化嵌入矩阵。 This paper 可能会帮助您更详细地探索这个想法。
此外,您关于当前实现不这样做的说法并不完全准确 - 虽然嵌入通常默认是联合训练的,但许多现有的神经 MT 工具包可以选择使用预训练来初始化嵌入向量。例如OpenNMT-py、Marian。