《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记

个人总结

本文最大贡献是提出了注意力机制，相比于之前 NMT（Neural Machine Translation）把整个句子压缩成一个固定向量表示的方法，对不同位置的目标单词计算每个输入的不同权重，这样能够更好地捕捉目标词相关的输入信息。

ABSTRACT

最近的 NMT 模型是 encoder-decoder 架构，编码器将源句子编码为固定长度的向量，解码器根据该向量生成翻译。本文推测原句编码到一个固定长度的向量是一个瓶颈，然后文章提出了改进：在之前模型的基础上自动寻找目标词相关的源句子的部分，而不是死板的把整个句子编码为固定长度的向量。

这个方法在 English-to-French translation 上达到 sota 效果

1. INTRODUCTION

encoder-decoder 架构：编码器神经网络读取源句子并将其编码为固定长度的向量，然后解码器从编码的向量中输出翻译结果。

但是一个潜在问题是 encoder 需要把整个句子编码为固定长度的向量，很难处理长句子（长句子信息量相对更多，同样编码为固定长度向量就很难提取所有重要的的特征）。为了解决这一问题，本文提出在原来模型基础上的扩展，同时进行对齐和翻译（这里对齐的意思应该是预测词和输入词之间位置的对应关系。比如“我爱你”和“I love you”中“我”和“I”的对应。但是语言之间语序又有不同，因此不能按照顺序简单对应）。每次模型生成新的翻译词，它在原句那些最有可能包含有关信息的位置上进行搜索。

这个方法最重要的特点是，它没有尝试将原句的所有部分编码到固定长度的向量，而是它把原句编码到一系列向量，然后在解码的时候灵活的选用这个序列的子集。

2. BACKGROUND: NEURAL MACHINE TRANSLATION

从统计的角度看，翻译相当于寻找译句 $y$ ，使得给定原句 $x$ 时条件概率最大，即 $argmaxyp(y|x)$ ，也就是极大似然估计的思想。

2.1 RNN ENCODER-DECODER

Encoder

在 Encoder-Decoder 框架里，编码器把原句，一个序列的向量 $x=(x_1,...,x_{T_x})$ ，编码到一个向量 $c$ 。最普遍的方法是用一个 RNN：
$h_{t} = f(x_{t},h_{t-1})$

$c = q(\{h_{t},...,h_{T_{x}}\})$

$h_t$ 是时间 t 上的隐状态（hidden state）， $c$ 是从输入序列的隐状态得到的向量称为上下文向量， $f$ 和 $q$ 是非线性函数

Decoder

解码器用来给定上下文向量 $c$ 和所有之前预测好的词 $\{y_1,...,y_{t−1}\}$ ，预测下一个词 $y_t $
$p(y) = \prod_{t=1}^{T}p(y_{t} | \{y_{1},...,y_{t-1}\},c)$
在这里 $y= (y_{1},...,y_{T_{y}})$ 。有了 RNN，每个条件概率都表示成：
$p \left( y _ { t } | \left\{ y _ { 1 } , \cdots , y _ { t - 1 } \right\} , c \right) = g \left( y _ { t - 1 } , s _ { t } , c \right)$
$c$ 是 encoder 产生的上下文向量， $s_t$ 是解码器 t 时刻的隐藏状态。 $g$ 是一个非线性的，可能包含多层的函数，它输出 $y_t$ 的概率。

3. LEARNING TO ALIGN AND TRANSLATE

在次提出一种用于 NMT 的新的架构。基于 encoder-decoder，增加一个 alignment model，形成新的网络结构。

3.1 DECODER: GENERAL DESCRIPTION

《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记

新的条件概率：
$p \left( y _ { i } | y _ { 1 } , \ldots , y _ { i - 1 } , \mathbf { x } \right) = g \left( y _ { i - 1 } , s _ { i } , c _ { i } \right)$
注意，原始的 $c$ 变为 $c_i$ ，意味着上下文向量不再是固定的，而是每个时间步都有不同的上下文向量。 $s_i$ 是 $i$ 时间步解码器的隐藏状态。

$s_i$ 的计算公式
$s _ { i } = f \left( s _ { i - 1 } , y _ { i - 1 } , c _ { i } \right)$
在 RNN 中， $f$ 可以看成是一个 RNN 网络

上下文向量 $c_i$ 取决于编码器对输入句子进行映射的向量序列 $(h_1,⋯,h_{T_x})$ ，作者称之为 $h_i$ 为 annotation 向量。每个 annotation 向量 $h_i$ 包含关于整个输入序列的信息，其重点关注输入序列的第 i 个词周围的部分。上下文向量是 annotation 向量的加权和。计算如下：
$c _ { i } = \sum _ { j = 1 } ^ { T _ { x } } \alpha _ { i j } h _ { j }$
其中 $\alpha_{ij}$ 的计算公式如下
${ \alpha _ { i j } = \frac { \exp \left( e _ { i j } \right) } { \sum _ { k = 1 } ^ { T _ { x } } \exp \left( e _ { i k } \right) } }$
其中 ${ e _ { i j } = a \left( s _ { i - 1 } , h _ { j } \right) }$ ，具体计算公式如下
$e _ { i j } = v _ { a } ^ { \top } \tanh \left( W _ { a } s _ { i - 1 } + U _ { a } h _ { j } \right)$
$e_{ij}$ 是 alignment model 的输出，是一个对齐模型，这个模型衡量了原句的 j 位置和译句的 i 位置在多大程度上匹配。对齐模型 $\alpha$ 作为一个前馈神经网络，跟编码器和解码器共同进行训练。

到这里就呼应题目了 —— 对齐和翻译是同时学习的。

学习对齐模型只是手段，目的是完善注意力机制 —— 计算每个翻译词的上下文。

我们可以把计算注释的加权和看成计算期望注释。把 $\alpha_{ij}$ 当做译句词 $y_i$ 由原句词 $x_j$ 翻译而来的概率。概率 $\alpha_{ij}$ 反映了注释 $h_j$ 相对于前一个隐状态 $s_{i−1}$ 在预测下一个状态 $s_i$ 和生成 $y_i$ 过程中的重要性。直观上，这在解码器上实现了注意机制。

3.2 ENCODER: BIDIRECTIONAL RNN FOR ANNOTATING SEQUENCES

以往的 RNN，都是从句子第一个符号读到最后一个符号。然而，我们想要让注释不仅囊括之前的信息，还要包含之后的信息，所以我们采用双向 RNN。

一个 BiRNN 由向前和向后 RNN 组成。向前 RNN $\overrightarrow{f}$ 从左到右读取原句（从 $x_1$ 到 $x_{T_x}$ ），然后计算一个序列的向前隐状态 $(\overrightarrow{h}_{1},...,\overrightarrow{h}_{T_{x}})$ 。向后 RNN $\overleftarrow{f}$ 反方向读取原句，然后计算一个序列的向后隐状态 $(\overleftarrow{h}_{1},...,\overleftarrow{h}_{T_{x}})$ 。

网络结构

循环神经网络使用 GRU

《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记
$\begin{aligned} z _ { i } & = \sigma \left( W _ { z } e \left( y _ { i - 1 } \right) + U _ { z } s _ { i - 1 } + C _ { z } c _ { i } \right) \\ r _ { i } & = \sigma \left( W _ { r } e \left( y _ { i - 1 } \right) + U _ { r } s _ { i - 1 } + C _ { r } c _ { i } \right) \\ \tilde { s } _ { i } &= \tanh \left( W e \left( y _ { i - 1 } \right) + U \left[ r _ { i } \circ s _ { i - 1 } \right] + C c _ { i } \right) \\ s _ { i } &= f \left( s _ { i - 1 } , y _ { i - 1 } , c _ { i } \right) = \left( 1 - z _ { i } \right) \circ s _ { i - 1 } + z _ { i } \circ \tilde { s } _ { i } \end{aligned}$
其中 ◦ 是 Hadamard Product，也就是操作矩阵中对应的元素相乘， $e \left( y _ { i - 1 } \right) \in \mathbb { R } ^ { m }$ 是一个 m 维的词向量。