【李宏毅深度学习】Backpropagation

李宏毅深度学习_Backpropagation

本文是李宏毅深度学习 (2015)的学习笔记，主要介绍了神经网络Backpropagation算法的推导过程。本文所用到的图示均来自课堂ppt。

原视频地址：李宏毅深度学习 (2015)

Background

【李宏毅深度学习】Backpropagation

为了使用Gradient Descent对网络参数进行训练，我们就要求出Cost Function对每一层参数的梯度，由于本质上 $w_{i j}^{l}$ 与 $b_{i}^{l}$ 差别不大（可将 $b_{i}^{l}$ 看作 $w_{i j}^{l}$ 中的一项），因此我们这里仅对 $\partial C^{r} / \partial w_{i j}^{l}$ 进行推导， $\partial C^{r} / \partial b_{i}^{l}$ 推导类似。

链式法则

【李宏毅深度学习】Backpropagation

这里使用求导链式法则先将这个问题拆解成两部分，然后分别对每一部分的求导进行计算。

计算链式法则中拆解的两部分

1. 计算 $\partial z_{i}^{l} / \partial w_{i j}^{l}$

【李宏毅深度学习】Backpropagation

第一部分的求导分为两种情况：

$l > 1$ 。即当权值不是第一层时，导数为 $a_{j}^{l - 1}$ 。
$l = 1$ 。即权值为第一层时，导数为 $x_{j}^{r}$ 。

2. 计算 $\partial C^{r} / \partial z_{i}^{l}$

【李宏毅深度学习】Backpropagation

为了描述方便将 $\partial C^{r} / \partial z_{i}^{l}$ 描述为 $δ_{i}^{l}$ 。此时利用BP的思想，先求出最后一层的 $δ^{L}$ ，再找出后一层 $δ^{l + 1}$ 与前一层 $δ^{l}$ 的关系，以此求出所有的 $δ^{l}$ 。

【李宏毅深度学习】Backpropagation

同样根据链式求导法则可以得出

δ_{n}^{L} = σ^{'} (z_{n}^{L}) \frac{\partial C^{r}}{\partial y_{n}^{r}}

其中 $\frac{\partial C^{r}}{\partial y_{n}^{r}}$ 与Cost Function的选取有关。

【李宏毅深度学习】Backpropagation

$z_{i}^{l}$ 的变化 $Δ z_{i}^{l}$ 会对 $a_{i}^{l}$ 造成影响进而影响到下一层的 $z^{l + 1}$ ，

【李宏毅深度学习】Backpropagation

向量化后得到

δ^{l} = σ^{'} (z^{l}) \cdot (W^{l + 1})^{T} δ^{l + 1} 。

总结

【李宏毅深度学习】Backpropagation

至此，我们已经完成了对 $\partial C^{r} / \partial w_{i j}^{l}$ 的推导，并且实现了向量化。 $\partial C^{r} / \partial b_{i}^{l}$ 推导类似。

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode