深度学习方法（二十一）：常用权重初始化方法Xavier，He initialization的推导

文章目录

交叉熵目标函数更陡峭
Xavier initialization [1][4]
He initialization [2][3]

He init 考虑ReLU函数
He init 考虑Leaky ReLU函数

结束语
参考资料

交叉熵目标函数更陡峭

在论文[1]中给了一个图示，一定程度上说明了为什么Cross Entropy用的很多，效果很好。图中上面的曲面表示的是交叉熵代价函数，下面的曲面表示的是二次代价函数，W1和W2分别表示层与层之间的连接权值。

深度学习方法（二十一）：常用权重初始化方法Xavier，He initialization的推导 )

在1986年 Rumelhart 已经发现：logistic function 或者叫 conditional log-likelihood function: -log P（y|x) 的效果比 quadratic cost function（平方代价函数）的效果好很多的，原因在于 quadratic cost function（平方代价函数）在训练过程中会出现更多的 plateaus（平坦区域）。文章给出了一个两个参数下的图，图中采用的是具有单隐层的神经网络，**函数使用的是 tanh 函数，对于输入信号进行随机初始化，可以看到二次代价函数具有更多的 plateaus （平坦区域）。

Xavier initialization [1][4]

早期的参数初始化方法普遍是将数据和参数初始化为标准高斯分布（均值0方差1），但随着神经网络深度的增加，这方法并不能解决梯度消失问题。

深度学习方法（二十一）：常用权重初始化方法Xavier，He initialization的推导
那么我们应该怎么通过初始化来缓解这个问题呢？
论文中首先给出了一个启发式的方法，想法是初始化值和神经元的输入个数有关：

We initialized the biases to be 0 and the weights Wij at each layer with the following commonly used heuristic, where U[−a, a] is the uniform distribution in the interval (−a, a) and n is the size of the previous layer (the number of columns of W)

$W \sim U[-\frac{1}{\sqrt n},\frac{1}{\sqrt n}]\\ Var(W) = \frac{1}{3n}$

上面式子中， $W \sim$ 表示其中的每一个元素 $W_{ij}$ 都是符合一个均匀分布的。其中n表示本层的输入size，也就是上一层的输出size。我们知道随机变量在[a,b] 间的均匀分布的方差为
$Var= \frac{(b-a)^2}{12}$
所以得到权重参数的方差是1/3n。先记一下，后面分析会讲到。

为了便于研究，作者假设使用线性**函数 $f(x)$ ，且在零点导数 $f'(0)=1$ 。实际上，作者研究的是参数的线性区域，可以认为是对任务的一个简化。

对于一层网络：
$f(\textbf x) = \sum_i^n w_ix_i + b$
输出的方差：
$Var(f(\textbf x)) = \sum_i^n Var(w_i x_i)$
其中每一项：
$Var(w_i x_i) = E[w_i]^2Var(x_i) + E[x_i]^2Var(w_i)+Var(w_i)Var(x_i)$

当我们假设输入和权重都是0均值时（目前有了BN之后，每一层的输入也较容易满足），即 $E[x_i] = E[w_i] = 0$ ，上式可以简化为：

$Var(w_i x_i) =Var(w_i)Var(x_i)$

由于w和x独立同分布，那么输出的方差就是

$Var(f(\textbf x)) = n Var(w_i) Var(x_i)$

我们发现，输出的方差是和输入的方差是一个线性倍数关系。假设 $z^i$ 是第 $i$ 层的输入向量， $s^i$ 是第 $i$ 层**函数的输入， $f$ 表示**函数

$\textbf s^i = \textbf z^i W^i + \textbf b^i \\ \textbf z^{i+1} = f(\textbf s^i)\\ \textbf s^{i+1} = \textbf z^{i+1} W^{i+1} + \textbf b^{i+1}$

可以得到：
对于一个多层的网络，某一层的方差可以用累积的形式表达：
$Var[z^i] = Var[x] \prod_{i'=0}^{i-1}n_{i'} Var[W^{i'}]$

求反向我们可以得到（假设 $f'(s_k^i) \approx 1$ ，其中Cost表示Loss）：
$\frac{\partial Cost}{\partial s_k^i} = f'(s_k^i) W_{k,\cdot}^{i+1} \frac{\partial Cost}{\partial s^{i+1}} \\ \frac{\partial Cost}{\partial w_{l,k}^i} = z_l^i \frac{\partial Cost}{\partial s_k^i}$

其中 $Var[W^{i'}]$ 表示第 $i'$ 层的共享权重的方差，对于 $d$ 层的网络（大饼博士注：下面第一个式子的变量的layer号，符号上和上面求 $\frac{\partial Cost}{\partial s_k^i}$ 的式子，有一点歧义难看懂。主要上面是正向去写，在同一个层里面 $S^i$ 和 $W^{i+1}$ 是一对。而下面第一个式子，理解成同一个层里面输入以及参数都是对应的 $i'$ ，通过堆叠 $d$ 层，得到最初的输入 $s^i$ 的梯度的方差）
$Var[\frac{\partial Cost}{\partial s^i}]=Var[\frac{\partial Cost}{\partial s^d}] \prod_{i'=i}^{d}n_{i'+1} Var[W^{i'}] \\ Var[\frac{\partial Cost}{\partial w^i}]= \prod_{i'=0}^{i-1}n_{i'} Var[W^{i'}] \prod_{i'=i}^{d-1}n_{i'+1} Var[W^{i'}] \times Var[x] Var[\frac{\partial Cost}{\partial s^d}]$

如果我们希望，神经网络在前向计算的时候，输入输出的方差都是一致的，即 $\forall (i,i'), Var[z^i] = Var[z^{i'}]$ ，我们需要满足：

$\forall i, \quad n_i Var[W^i] = 1$

类似的，如果我们希望反向计算的输入输出方差也是一致的， $\forall (i,i'), Var[\frac{\partial Cost}{\partial s^i}] = Var[\frac{\partial Cost}{\partial s^{i'}}]$ ，需要满足：

$\forall i, \quad n_{i+1} Var[W^i] = 1$

一个层的输入输出一般不相同，作为折中

$\forall i, \quad Var[W^i] = \frac{2}{n_i + n_{i+1}}$

这个就是Xavier初始化算法，认为神经网络每一层的参数的方差需要满足的方差（均值=0）。（注：这里并没有假设是符合什么分布的，只是要求方差是这样，所以理论上我们可以采用任意分布，只要方差等于上面的公式即可）。

常见的，我们可以用高斯分布，或者均匀分布来生成随机参数（对于Xavier初始化方式，例如pytorch提供了uniform和normal两种：）。

如果是采用均匀分布，根据前面讲过的，随机变量在[a,b] 间的均匀分布的方差为 $Var= {(b-a)^2}/{12}$ ，那么我们只要用下面分布来采样，就可以得到上面的方差。这个公式也是Xavier论文[1]中给出的建议。

$W \sim U[-\frac{\sqrt 6}{\sqrt {n_j + n_{j+1}}},\frac{\sqrt 6}{\sqrt {n_j + n_{j+1}}}]$

如果是采用高斯分布，那么直接就：[6]

$W \sim N(0, { \frac{2}{n_i + n_{i+1}}})$

补充一句,caffe的Xavier实现有三种选择[7]：
深度学习方法（二十一）：常用权重初始化方法Xavier，He initialization的推导

He initialization [2][3]

前面Xavier方法只考虑了线性**函数，而现在的神经网络（特别是CNN网络）采用的主要是ReLU和Leaky ReLU函数，He初始化方法就是来分析采用ReLU和Leaky ReLU**函数下，如果我们希望每一层的输入输出方差不变，我们应该如何初始化权重参数，方法上和前一节基本一致。

对于一个卷积层或者全连接层，其表达式为

$y_l = W_l x_l + b_l.$

若 $W_l$ 、 $b_l$ 采样自0均值高斯分布，用 $n_l$ 表示第 $l$ 层 $x_l$ 的维数，在卷积层，有 $n_l=k^2c$ ， $k$ 为卷积核的边长， $c$ 为channel数，注意到 $y_l$ 是 $W_l$ 中元素与 $x_l$ 中对应元素的乘积的和，则上式各变量的方差关系可以表示为：

$Var[y_l] = n_l Var[W_l x_l]=n_l Var[W_l]E[x_l^2].$

这里的 $x_l$ 项前并不是其方差，而是 $E[x^2_l]$ ，因为 $x_l$ 通常并不具备0均值，例如ReLU**函数得到的结果， $x_l$ 均为正值。注意到由于 $W_l$ 是0均值的，所以无论 $x_l$ 均值为多少，均有

$E[y_l]=E[W_l x_l]=0.$

He init 考虑ReLU函数

通过ReLU**函数： $x_l=max(0,y_{l−1})$ ，仅正半轴有值，我们假设**之前的值正负各一半，总体是对称的，可以得到：
$E[x_l^2] = \frac{1}{2} Var[y_{l-1}].$

因此（如果本文从上面看下来的话，看到这个公式就很熟悉了）：
$Var[y_l] = \frac{1}{2} n_l Var[W_l]Var[y_{l-1}].$

我们希望每一层的**前值（卷积的结果，没有过**函数）的方差一致， $Var[y_l]=Var[y_{l-1}]$ ，这个是和Xavier不一样的地方，这样就可以不考虑**函数了。那么：

$\frac{1}{2} n_lVar[W_l] =1.$

如果是用高斯分布采样， $W \sim N(0,\frac{2}{n_l})$
如果是用均匀分布，那么： $W \sim U[-\sqrt{6/n_l},\sqrt{6/n_l}]$

He init 考虑Leaky ReLU函数

Leaky ReLU**函数和导函数分别为
深度学习方法（二十一）：常用权重初始化方法Xavier，He initialization的推导
所以：
$E[x_l^2] = \frac{1}{2}(1+\alpha^2) Var[y_l].$

类似上面的推导，可以得到，

$\frac{1}{2}(1+\alpha^2) n_lVar[W_l] =1.$

如果是用高斯分布采样， $W \sim N(0,\frac{2}{(1+\alpha^2) n_l})$
如果是用均匀分布，那么： $W \sim U[-\sqrt{6/(1+\alpha^2) n_l},\sqrt{6/(1+\alpha^2) n_l}]$

结束语

好了，到这里本篇就讲完了，介绍了Xavier与He intit的初始化方法，是非常常见的方法。后来还有很多工作来优化初始化，比如进一步考虑resnet网络结构时，有文章引入了Mean field，还有fixup initialization等方法。这些以后有机会再写了。最后说一句BN，因为可以强制要求每一层的数据符合0均值1方差，所以效果上和本文讨论的方法效果很类似。使得前向的数据会相对稳定。但是BN似乎并没有考虑反向梯度的稳定性，这一点目前更多是让resnet中的identity跳边来完成的，有这个identity跳边情况下，梯度至少在在跳边这一路上，可以identity透传，梯度就不容易消失。但是似乎梯度爆炸没有避免，什么情况下会爆炸呢？回看我们前面的分析，比如Xavier中，我们要求 $\quad n_{i+1} Var[W^i] = 1$ ，反向就会稳定，如果>1，那么很显然，只要层数深，梯度就指数爆炸了，这样训练也会很难训。因此训练过程中的数据和梯度的稳定性是很重要的。

参考资料

[1] Understanding the difficulty of training deep feedforward neural networks
[2] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
[3] https://blog.csdn.net/happynear/article/details/45440811
[4] https://blog.csdn.net/kangroger/article/details/61414426
[5] https://blog.csdn.net/qq_34784753/article/details/78668884
[6] https://blog.csdn.net/dss_dssssd/article/details/83959474
[7] https://blog.csdn.net/weixin_34221773/article/details/86085462
[8] https://www.cnblogs.com/itmorn/p/11132494.html#ct5