为什么在 first attention 论文中没有使用词嵌入（Glove、word2vecetc）？答案

【问题标题】：Why no word embeddings (Glove, word2vecetc) used in first attention paper?为什么在 first attention 论文中没有使用词嵌入（Glove、word2vecetc）？
【发布时间】：2019-03-12 12:30:14
【问题描述】：

在论文Neural Machine Translation by Jointly Learning to Align and Translate Bahdanau et. al. 中为什么没有使用 Glove 或 word2vec 等词嵌入？

我知道这是一篇 2014 年的论文，但目前在 github 上的论文的实现也没有使用任何词嵌入？

为了尝试对论文进行编码，使用词嵌入是否合理？

【问题讨论】：

标签： nlp word-embedding machine-translation attention-model

【解决方案1】：

简而言之 - 该模型确实使用了词嵌入，它们只是不像 Glove 或 word2vec 那样预先训练过的嵌入；相反，嵌入是随机初始化的，并与网络的其余部分一起进行联合训练。

在原始 Bahdanau 等人的 A.2 节中对网络的完整描述中。在论文中，您将看到为编码器和解码器描述的词嵌入矩阵E。 B.1 节也描述了它们是如何初始化的。

在您有足够数据的情况下，这通常与预训练嵌入一样好或更好。也就是说，在资源匮乏的环境中，它可以帮助使用预先训练的嵌入来初始化嵌入矩阵。 This paper 可能会帮助您更详细地探索这个想法。

此外，您关于当前实现不这样做的说法并不完全准确 - 虽然嵌入通常默认是联合训练的，但许多现有的神经 MT 工具包可以选择使用预训练来初始化嵌入向量。例如OpenNMT-py、Marian。

【讨论】：