【问题标题】:Why no word embeddings (Glove, word2vecetc) used in first attention paper?为什么在 first attention 论文中没有使用词嵌入(Glove、word2vecetc)?
【发布时间】:2019-03-12 12:30:14
【问题描述】:

在论文Neural Machine Translation by Jointly Learning to Align and Translate Bahdanau et. al. 中为什么没有使用 Glove 或 word2vec 等词嵌入?

我知道这是一篇 2014 年的论文,但目前在 github 上的论文的实现也没有使用任何词嵌入?

为了尝试对论文进行编码,使用词嵌入是否合理?

【问题讨论】:

    标签: nlp word-embedding machine-translation attention-model


    【解决方案1】:

    简而言之 - 该模型确实使用了词嵌入,它们只是不像 Glove 或 word2vec 那样预先训练过的嵌入;相反,嵌入是随机初始化的,并与网络的其余部分一起进行联合训练。

    在原始 Bahdanau 等人的 A.2 节中对网络的完整描述中。在论文中,您将看到为编码器和解码器描述的词嵌入矩阵E。 B.1 节也描述了它们是如何初始化的。

    在您有足够数据的情况下,这通常与预训练嵌入一样好或更好。也就是说,在资源匮乏的环境中,它可以帮助使用预先训练的嵌入来初始化嵌入矩阵。 This paper 可能会帮助您更详细地探索这个想法。

    此外,您关于当前实现不这样做的说法并不完全准确 - 虽然嵌入通常默认是联合训练的,但许多现有的神经 MT 工具包可以选择使用预训练来初始化嵌入向量。例如OpenNMT-pyMarian

    【讨论】:

      猜你喜欢
      • 2018-10-08
      • 2016-06-11
      • 1970-01-01
      • 1970-01-01
      • 2018-06-11
      • 2020-09-28
      • 2018-06-07
      • 2022-08-18
      相关资源
      最近更新 更多