Task 03- 模型泛化-数值稳定性-RNN进阶
1 模型泛化

2 数值稳定性
2.1 梯度稳定性
根据反向传播机制,梯度根据链式法则由后向前递乘,容易出现梯度过小(gradient vanishing)与梯度过大的现象(gradient exploding)
2.2 参数初始化
- Xavier随机初始化:全连接层输入维度为a,输出维度为b,则每个权重元素的初始值随机采样于均匀分布U(−a+b6,a+b6).
- He初始化:(适用于ReLU**函数),每个权重元素采样于正态分布N(0,a2)
2.3 偏移
3 RNN进阶
3.1 通过时间反向传播(BPTT, Back Propagation Through Time)
-
计算图(无偏置项+线性**)

-
运算
ht=Wxhxt+Whhht−1ot=WqhhtL=T1t=1∑Tl(ot,yt)
-
反向传播
∂Wqh∂L=T1t=1∑T[∂ot∂l(ot,yt)∂Wqh∂ot]=T1t=1∑T∂ot∂l(ot,yt)ht⊤∂Wxh∂L=∂ot∂L∂ht∂ot∂Wxh∂ht=T1t=1∑T∂ot∂l(ot,yt)Wqhxt⊤∂Whh∂L=∂ot∂L∂ht∂ot∂Whh∂ht=T1t=1∑T∂ot∂l(ot,yt)Whhht−1⊤
-
机理
与MLP的计算图不同,MLP的反向传播可以高度并行化,如均方误差损失+线性**的Perceptron,其∂wa,b∂L=∣ob−yb∣xa只依赖于输入xa而不依赖于其他状态,而RNN的计算图由于存在序列上的依赖关系,所以反向传播时,需要依赖于若干时间步长之前的状态来对梯度进行计算(见∂Whh∂L)
3.2 GRU

3.3 LSTM
- 长短期记忆单元,Long Short Term Memory
- 门控:输入门(input gate),遗忘门(forget gate),输出门(output gate)
- 计算图

3.4 deep & bi-directional

- 双向RNN:隐藏状态的传递方向包含了前向后及后向前

相关文章: