Fine-Grained Attention Mechanism for Neural Machine Translation 论文笔记
该文是阅读Fine-Grained Attention Mechanism for Neural Machine Translation 论文总结的笔记,用来记录自己的理解和思考,一来记录自己的学习历程,二来期待和大家讨论研究,共同进步。
文章目录
1. 概述
这篇论文提出了一种细粒度(或者2D)的注意力机制,上下文向量中的每个维度都会单独获得一个注意力得分。在英德和英法德翻译任务中,从BLEU值看,该机制提高了翻译质量。另外对齐分析也表示该机制探索出了上下文向量的内部结构。
这里的注意力机制可以选择关注,在高纬度的上下文向量中编码的单个单词的许多可能解释其中的一个。这可以通过让注意力机制输出和上下文向量维度相同数量的得分,区别于现存的每个上下文向量返回一个值的各种注意力机制。
注意
这篇论文还讲解了基于注意力机制的神经机器翻译的原理以及各种注意力机制的变种,讲解得比较细致,有兴趣的同学可以移步原论文,此处不再赘述。
2. 模型结构
所有现有的注意力机制都是为每个上下文向量得出一个得分。然而这里发现每次给上下文向量一个得分并不必要,而且为上下文向量的每个维度赋一个得分可能会更好,因为每个维度代表了抓取的内部结构的一个不同的方面。词嵌入的每个维度都有不同的意义并且上下文能够用不同的方式来丰富每个维度的意义。这篇论文有两点不同:1)注重编码后的词向量而不是词嵌入;用2维的注意力机制而不是给出句子的上下文。
因此拓展了注意力的计分函数,返回了对应上下文向量ht维度的得分集合。公式如下:
这里e是时间t‘的第t个上下文向量ht的第d维的得分。f是全连接神经网络,输出节点的数目是d。这些维度的各个得分要在维度方面进一步正则化,公式如下:
然后上下文向量可以这样结合:
α是
图1对比了卷积注意力机制和提出的细粒度的注意力机制
3. 实验训练
在下表中展示了所有模型在英德和英法的翻译效果:
此外,该论文还对模型结果的对齐进行了分析,该模型返回的是一个三维的张量,代表了源标记xt,目的标记yt’和对应的上下文向量c一个维度之间的关系。这样的话可视化该模型的结果就是一个挑战了,因为上下文向量的唯独通常更大。
这里开始是通过在上下文向量的维度上取平均来实现可视化:
这个公式计算了来源和目的标记的对齐的强度,并且和卷积注意力机制的对齐矩阵是可比的。如图2:
之后还进行了其他的比较方式,此处不再赘述。
4. 总结
这篇论文为神经机器翻译提出了一个细粒度(或者2维)的注意力机制。英德和英法的翻译实验显示该模型明显提升了翻译质量。当这个方法应用于之前的技术,基于简单想法的语境时,表现会进一步提升。经过对齐分析,细粒度注意力机制显示上下文的不同维度在神经机器翻译中发挥着不同的作用。
以后可以在不同的NMT模型中尝试细粒度注意力机制,比如字符水平的模型或者多层的编码解码模型。而且细粒度注意力机制也可以应用于不同的任务,比如语音识别。