RNN,LSTM,GRU基本原理的个人理解

记录一下对RNN,LSTM,GRU基本原理（正向过程以及简单的反向过程）的个人理解

RNN

Recurrent Neural Networks，循环神经网络
（注意区别于recursive neural network，递归神经网络）

为了解决DNN存在着无法对时间序列上的变化进行建模的问题（如自然语言处理、语音识别、手写体识别），出现的另一种神经网络结构——循环神经网络RNN。

RNN结构

RNN,LSTM,GRU基本原理的个人理解

第 $t$ 层神经元的输入，除了其自身的输入 $x_{t}$ ，还包括上一层神经元的隐含层输出 $s_{t - 1}$
每一层的参数U,W,V都是共享的
每一层并不一定都得有输入和输出，如对句子进行情感分析是多到一，文本翻译多到多，图片描述一到多

数学描述

（以下开始符号统一）
回忆一下单隐含层的前馈神经网络
输入为 $X \in R^{n \times x}$ （n个维度为x的向量）
隐含层输出为

H = ϕ (X W_{x h} + b_{h})

输出层输入

H \in R^{n \times h}

输出为

\hat{Y} = softmax (H W_{h y} + b_{y})

现在对

X

、

H

、

Y

都加上时序下标
同时引入一个新权重

W_{h h} \in R^{h \times h}

得到RNN表达式

H_{t} = ϕ (X_{t} W_{x h} + H_{t - 1} W_{h h} + b_{h})

{\hat{Y}}_{t} = softmax (H_{t} W_{h y} + b_{y})

H_{0}

通常置零

深层RNN和双向RNN

RNN,LSTM,GRU基本原理的个人理解

通过时间反向传播和随之带来的问题

输入为 $x_{t} \in R^{x}$
不考虑偏置
隐含层变量为

h_{t} = ϕ (W_{h x} x_{t} + W_{h h} h_{t - 1})

输出层变量为

o_{t} = W_{y h} h_{t}

则损失函数为

L = \frac{1}{T} \sum_{t = 1}^{T} ℓ (o_{t}, y_{t})

以一个三层为例
RNN,LSTM,GRU基本原理的个人理解
三个参数更新公式为

W_{h x} = W_{h x} - η \frac{\partial L}{\partial W_{h x}}

W_{h h} = W_{h h} - η \frac{\partial L}{\partial W_{h h}}

W_{y h} = W_{y h} - η \frac{\partial L}{\partial W_{y h}}

明显的

\frac{\partial L}{\partial o_{t}} = \frac{\partial ℓ (o_{t}, y_{t})}{T \cdot \partial o_{t}}

根据链式法则

\frac{\partial L}{\partial W_{y h}} = \sum_{t = 1}^{T} prod (\frac{\partial L}{\partial o_{t}}, \frac{\partial o_{t}}{\partial W_{y h}}) = \sum_{t = 1}^{T} \frac{\partial L}{\partial o_{t}} h_{t}^{⊤}

先计算目标函数有关最终时刻隐含层变量的梯度

\frac{\partial L}{\partial h_{T}} = prod (\frac{\partial L}{\partial o_{T}}, \frac{\partial o_{T}}{\partial h_{T}}) = W_{y h}^{⊤} \frac{\partial L}{\partial o_{T}}

假设

ϕ (x) = x

（RNN中用**函数relu还是tanh众说纷纭，有点玄学）

\frac{\partial L}{\partial h_{t}} = prod (\frac{\partial L}{\partial h_{t + 1}}, \frac{\partial h_{t + 1}}{\partial h_{t}}) + prod (\frac{\partial L}{\partial o_{t}}, \frac{\partial o_{t}}{\partial h_{t}}) = W_{h h}^{⊤} \frac{\partial L}{\partial h_{t + 1}} + W_{y h}^{⊤} \frac{\partial L}{\partial o_{t}}

通项为

\frac{\partial L}{\partial h_{t}} = \sum_{i = t}^{T} {(W_{h h}^{⊤})}^{T - i} W_{y h}^{⊤} \frac{\partial L}{\partial o_{T + t - i}}

注意上式，当每个时序训练数据样本的时序长度T较大或者时刻t较小，目标函数有关隐含层变量梯度较容易出现衰减和爆炸

\frac{\partial L}{\partial W_{h x}} = \sum_{t = 1}^{T} prod (\frac{\partial L}{\partial h_{t}}, \frac{\partial h_{t}}{\partial W_{h x}}) = \sum_{t = 1}^{T} \frac{\partial L}{\partial h_{t}} x_{t}^{⊤}

\frac{\partial L}{\partial W_{h h}} = \sum_{t = 1}^{T} prod (\frac{\partial L}{\partial h_{t}}, \frac{\partial h_{t}}{\partial W_{h h}}) = \sum_{t = 1}^{T} \frac{\partial L}{\partial h_{t}} h_{t - 1}^{⊤}

梯度裁剪

为了应对梯度爆炸，一个常用的做法是如果梯度特别大，那么就投影到一个比较小的尺度上。 $θ$ 为设定的裁剪“阈值”，为标量，若梯度的范数大于此阈值，将梯度缩小，若梯度的范数小于此阈值，梯度不变

g = min (\frac{θ}{‖ g ‖}, 1) g

LSTM

RNN的隐含层变量梯度可能会出现衰减或爆炸。虽然梯度裁剪可以应对梯度爆炸，但无法解决梯度衰减。因此，给定一个时间序列，例如文本序列，循环神经网络在实际中其实较难捕捉两个时刻距离较大的文本元素（字或词）之间的依赖关系。
LSTM（long short-term memory）由Hochreiter和Schmidhuber在1997年被提出。

LSTM结构

这里两张图先不用细看，先着重记住公式后再回来看

RNN,LSTM,GRU基本原理的个人理解

数学描述

（同上，符号统一）
设隐含状态长度 $h$ , $t$ 时刻输入 $X_{t} \in R^{n \times x}$ （ $x$ 维）及 $t - 1$ 时刻隐含状态 $H_{t - 1} \in R^{n \times h}$ ,
输入门，遗忘门，输出门，候选细胞如下

I_{t} = σ (X_{t} W_{x i} + H_{t - 1} W_{h i} + b_{i})

F_{t} = σ (X_{t} W_{x f} + H_{t - 1} W_{h f} + b_{f})

O_{t} = σ (X_{t} W_{x o} + H_{t - 1} W_{h o} + b_{o})

{\tilde{C}}_{t} = tanh (X_{t} W_{x c} + H_{t - 1} W_{h c} + b_{c})

（思考侯选细胞**函数的不同）
记忆细胞

C_{t} = F_{t} ⊙ C_{t - 1} + I_{t} ⊙ {\tilde{C}}_{t}

想象，如果遗忘门一直近似1且输入门一直近似0，过去的细胞将一直通过时间保存并传递至当前时刻
隐含状态

H_{t} = O_{t} ⊙ tanh (C_{t})

输出同RNN

\hat{Y} = softmax (H W_{h y} + b_{y})

GRU

由Cho、van Merrienboer、 Bahdanau和Bengio在2014年提出，比LSTM少一个门控，实验结果却相当

GRU结构

RNN,LSTM,GRU基本原理的个人理解

数学描述

设隐含状态长度 $h$ , $t$ 时刻输入 $X_{t} \in R^{n \times x}$ （ $x$ 维）及 $t - 1$ 时刻隐含状态 $H_{t - 1} \in R^{n \times h}$ ,
重置门，更新门如下

R_{t} = σ (X_{t} W_{x r} + H_{t - 1} W_{h r} + b_{r})

Z_{t} = σ (X_{t} W_{x z} + H_{t - 1} W_{h z} + b_{z})

候选隐含状态

{\tilde{H}}_{t} = tanh (X_{t} W_{x h} + R_{t} ⊙ H_{t - 1} W_{h h} + b_{h})

隐含状态

H_{t} = Z_{t} ⊙ H_{t - 1} + (1 - Z_{t}) ⊙ {\tilde{H}}_{t}

输出

\hat{Y} = softmax (H W_{h y} + b_{y})

（无力吐槽csdn了，预览和实际用的不一套渲染，公式丑死）