Gradient Descent

BP只是为了更加高效地进行梯度计算。
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

Chain Rule链式法则

【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

输入一个xnx^n,经过神经网络后,得到 yny^n,真实值是y^n\hat{y}^n,定义一个yny^ny^n\hat{y}^n之间的距离的function CnC^nCnC^n越小,代表神经网络的parameter很好。

求和所有训练数据的 CnC^n 得到total loss L,对某一个参数进行计算微分。
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

前向传播

先考虑一个单独的neural
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记
如何计算z/w\partial{z}/\partial{w}
其值为该权重链接的输入值
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

在前馈时同时用变量存储了每层的梯度


反向传播

如何计算 C/z\partial{C}/\partial{z}
假设C/z\partial{C}/\partial{z}'C/z\partial{C}/\partial{z}''是已知的,进行后续计算。

【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记
把第二个式子带入第一个式子得到如下公式:
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记
σ(z)\sigma(z)在前向传播的时候就已经算出来了,是一个常量。
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记
下面只需要求出C/z\partial{C}/\partial{z}'C/z\partial{C}/\partial{z}''即可:

情况一:红色的neural是属于网络的output layer的

C/z=(y1/z)(C/y1)\partial{C}/\partial{z'}=(\partial{y_1}/\partial{z'})*(\partial{C}/\partial{y_1})

(y1/z)(\partial{y_1}/\partial{z'}):只需要知道后面的**函数是什么即可,因为y1=σ(z)y_1=\sigma(z')
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

(C/y1)(\partial{C}/\partial{y_1}):知道损失函数、output和target之间是如何evaluate评价的(cross entropy或者mean square error)

在这种情况下(图中蓝色的**函数是最后一个隐藏层的**函数,后面就是输出层了),这样就已经完成了。
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

情况二:假设红色的neural并不是整个网络的output,后面还有其他的东西

【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

从前往后算没有效率,所以要从输出层开始倒着算
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记
在做反向传播的时候,实际上是建立了另外一个神经网络,正向网络中的**函数都是sigmoid函数;现在需要建立一个反向的神经网络,在前向传播之后,再计算反向传播的**函数,反向传播神经网络的输入是C/z5\partial{C}/\partial{}z_5C/z6\partial{C}/\partial{z_6},其他部分和正向的神经网络运算完全一致。
【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

Summary

如何反向传播?
1、做一个前向传播,知道每一个**函数的output,就得到了他所连接的weight的z/w\partial{z}/\partial{w}

2、在反向传播中,要把原来的神经网络的方向反转,他的每一个三角形的output是C/z\partial{C}/\partial{z},将前向传播得到的z/w\partial{z}/\partial{w} 与现在反向传播得到的C/z\partial{C}/\partial{z}相乘,就得到了某一个weight对w的C的偏微分C/w\partial{C}/\partial{w}是什么了~

【李宏毅机器学习】backpropagation 反向传播(p13) 学习笔记

相关文章: