文章目录
1 Basic Structures for Deep Learning Models
y是由运算得到的
强制与c相乘的矩阵是对角阵,这样可以减少参数量
与下一个LSTM单元相连
粗箭头代表矩阵,LSTM有4个,GRU有3个‘。GRU计算量少,并且不容易过拟合。
3 Computational Graph and Backpropagation
计算图的方式:
注:代价值 C 是一个常数
是一个长条状,一行多列。
softmax 得到的不是 diagonal matrix,因为所有的 z 都会影响每一个
注:将 平铺,共有 m*n 个元素
左右两边结果一样