What does the gradient flowing through batch normalization looks like ?
反向传播梯度下降权值参数更新公式的推导全依赖于复合函数求梯度时的链式法则。
1. Batch Normalization
给定输入样本 。
Batch Normalization 的过程如下:
-
仿射变换(affine transformation)
显然 -
batch normalization 变换:
其中 去均值和方差归一化的形式:
进一步其标量形式如下:
的各个属性列,求均值和方差,最终构成的均值向量和方差向量。的计算
首先我们来看损失函数 关于隐层输入偏导的计算:
又由于:
由链式法则可知:
显然其中 ,
又由于:
所以:
根据 的计算公式可知: