1 Basic Structures for Deep Learning Models

李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
y是由hh'运算得到的
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
强制与c相乘的矩阵是对角阵,这样可以减少参数量

李宏毅深度学习
与下一个LSTM单元相连
李宏毅深度学习
李宏毅深度学习
粗箭头代表矩阵,LSTM有4个,GRU有3个‘。GRU计算量少,并且不容易过拟合。

3 Computational Graph and Backpropagation

李宏毅深度学习
李宏毅深度学习
计算图的方式:
李宏毅深度学习
李宏毅深度学习
注:代价值 C 是一个常数

李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
Cy\frac{\partial C}{\partial y} 是一个长条状,一行多列。
softmax 得到的不是 diagonal matrix,因为所有的 z 都会影响每一个 yiy_i
李宏毅深度学习
李宏毅深度学习
注:将 Wmn2W^2_{mn} 平铺,共有 m*n 个元素
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
左右两边结果一样
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习

4 Language Model

李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习
李宏毅深度学习

李宏毅深度学习
李宏毅深度学习
李宏毅深度学习

相关文章: