Seq2Seq模型讲解

Seq2Seq是一个Encoder-Deocder结构的模型，输入是一个序列，输出也是一个序列。

Encoder将一个可变长度的输入序列变为固定长度的向量，Decoder将这个固定长度的向量解码成可变长度的输出序列。

使用 $x = {x_{1}, x_{2}, . . ., x_{n}}$ 表示输入语句, $y = {y_{1}, y_{2}, . . ., y_{n}}$ 代表输出语句， $y_{t}$ 代表当前输出词。

所有的Seq2Seq模型都是以下目标函数，都是为了优化这个函数：

p (y | x) = \prod_{t = 1}^{n_{y}} p (y_{t} | y_{1}, y_{2}, . . ., y_{t - 1}, x)

即输出的

y_{t}

不仅依赖之前的输出

{y_{1}, y_{2}, . . ., y_{n}}

，还依赖输入语句

{x_{1}, x_{2}, . . ., x_{n}}

，模型无论怎么变化都是在该公式的约束下。

【注】

该条件概率模型存在问题：数值下溢问题。

原因：该式中每一项 $p (y_{t} | y_{1}, y_{2}, . . ., y_{t - 1}, x)$ 都小于1甚至于远远小于1，很多1乘起来，会得到很小很小的数字，造成数值下溢（numerical underflow）。

因此，在实际中一般是将其取log值，求其概率的对数和而不是概率的乘积，因此实际中一般用如下目标函数，目标是最大化该目标函数：

P (y | x) = \sum_{t = 1}^{n_{y}} \log P (y_{t} | y_{1}, y_{2}, . . ., y_{t - 1}, x)

Seq2Seq的核心部分是其解码部分，大部分改进基于此：

Seq2Seq模型讲解

该模型包括Encoder和Decoder两个部分，图中每个圆圈是一个RNN Cell，可以是RNN，也可以是LSTM、GRU等。

【流程】

Encoder
- 每个时刻输入一个词，隐藏层状态根据公式 $h_{t} = f (h_{t - 1}, x_{t})$ 改变。其中**函数 $f$ 可以是sigmod,tanh,ReLU,sotfplus,LSTM等。
- 读完序列的每一个词之后，会得到一个固定长度向量 $c = t a n h (V h^{N})$
Decoder
- 由结构图可以看出，t时刻的隐藏层状态 $h_{t}$ 由 $h_{t - 1}, y_{t - 1}, c$ 决定： $h_{t} = f (h_{t - 1}, y_{t - 1}, c)$ ，其中 $h_{0} = t a n h (V^{'} c)$
- 最后的输出 $y_{t}$ 是由 $h_{t}, y_{t - 1}, c$ 决定
  $P = (y_{t} | y t - 1, y t - 2, . . ., y 1, c) = g (h_{t}, y t - 1, c)$
  以上, $f, g$ 都是**函数，其中 $g$ 一般是softmax
目标
- 最大化对数似然条件概率
  $max_{θ} \frac{1}{N} \sum_{n = 1}^{N} l o g p_{θ} (y_{n} | x_{n})$

Seq2Seq模型讲解

该模型包括Encoder和Decoder两个部分，图中每个圆圈是一个RNN Cell，可以是RNN，也可以是LSTM、GRU等。本篇论文中Encoder、Decoder用的都是LSTM

【流程】

Encoder

同上个模型。如下图所示：
Decoder
- 初始状态：Encoder得到的向量表示即Encoder最后一个时间步长的隐藏层状态会作为Decoder的初始状态输入。通过**函数与softmax层得到候选symbols，筛选出概率最大的symbol，作为下一时刻的输入。
- t时刻的输出 $y_{t}$ ：由 $h_{t}, y_{t - 1}$ 决定，而没有 $c$ ： $p (y_{t}) = f (h_{t}, y_{t - 1})$ 。即在Decoder中，每个时刻 $t$ 的输出 $y_{t}$ 会作为下一时刻 $t + 1$ 的输入，直到Decoder在某个时刻预测出结束符号才停止。
目标函数：
$p (y_{1}, . . ., y_{T^{'}} | x_{1}, . . ., x_{T}) = \prod_{t = 1}^{T^{'}} p (y_{t} | v, y_{1}, . . ., y_{t - 1})$
最终多层模型采用下图说明：

【区别】

与上个模型的区别是Decoder部分

Seq2Seq模型讲解
【流程】

Encoder
- 使用双向RNN
- $\vec{h_{j}}$ 表示前向RNN的隐藏层状态， $\hat{h_{j}}$ 表示反向隐藏层状态
- $h_{j}$ 最终因状态将两者拼接起来，即 $h_{j} = [\vec{h_{j}}, \hat{h_{j}}]$
Decoder
- 每一时刻 $i$ 的输出由三个要素决定：时刻 $i$ 的隐状态 $s_{i}$ ，attention计算得到的context向量 $c_{i}$ ，上一时刻 $i - 1$ 的输出 $y_{i - 1}$
  $p (y_{i} | y_{1}, . . ., y_{i - 1}, X) = y_{i} = g (y_{i - 1}, s_{i}, c_{i})$
  其中 $s_{i}$ 由三个要素决定：时刻 $i$ 的隐状态，attention计算得到的context向量 $c_{i}$ ，上一时刻 $i - 1$ 输出 $y_{i - 1}$
  $s_{i} = f (s_{i - 1}, y_{i - 1}, c_{i})$
- 其中 $c_{i}$ 由以下公式得到
  $c_{i} = \sum_{j = 1}^{T_{x}} α_{i j} h_{j} α_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})} e_{i j} = a (s_{i - 1}, h_{j})$
  其中
- $c_{i}$ 是输入序列全部隐状态的 $h_{1}, h_{2}, . . ., h_{T}$ 的加权和
- $α_{i j}$ 代表权重参数，它并不是一个固定权重，而是由另一个神经网络训练得到

【总结】

context向量 $c_{i}$ 通过计算输入中的每个单词的权重，加权求和得到。
其中权重 $α_{i j}$ 即Decoder的上一时刻 $i - 1$ 隐状态 $s_{i - 1}$ 和Encoder的最终隐状态 $h_{j}$ 通过非线性函数得到。