[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

文章目录

概
主要内容

PReLU
Kaiming 初始化

Forward case

Backward case

He K, Zhang X, Ren S, et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification[C]. international conference on computer vision, 2015: 1026-1034.

@article{he2015delving,
title={Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification},
author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian},
pages={1026–1034},
year={2015}}

概

本文介绍了一种PReLU的**函数和Kaiming的参数初始化方法.

主要内容

PReLU

[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

$f(y_i) = \left \{ \begin{array}{ll} y_i, & y_i >0, \\ a_i y_i, & y_i \le 0. \end{array} \right.$
其中 $a_i$ 是作为网络的参数进行训练的.
等价于
$f(y_i)=\max(0, y_i) + a_i \min (0,y_i).$
特别的, 可以一层的节点都用同一个 $a$ .

Kaiming 初始化

Forward case

$\mathbf{y}_l=W_l\mathbf{x}_l+\mathbf{b}_l,$
在卷积层中时, $\mathbf{x}_l$ 是 $k\times k \times c$ 的展开, 故 $\mathrm{x}_l\in \mathbb{R}^{k^2c}$ , 而 $\mathbf{y}_l \in \mathbb{R}^{d}$ , $W_l \in \mathbb{R^{d \times k^2c}}$ (每一行都可以视作一个kernel), 并记 $n=k^2c$ .

$\mathbf{x}_l=f(\mathbf{y}_{l-1}),$
则
$c_l = d_{l-1}.$
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

假设 $w_l$ 与 $x_l$ (注意没粗体, 表示 $\mathbf{w}_l, \mathbf{x}_l$ 中的某个元素)相互独立, 且 $w_l$ 采样自一个均值为0的对称分布之中.

则
$Var[y_l] = n_l Var [w_lx_l] = n_lVar[w_l]E[x_l^2],$
除非 $E[x_l]=0$ , $Var[y_l] = n_lVar[w_l]Var[x_l]$ , 但对于ReLu, 或者 PReLU来说这个性质是不成立的.

如果我们令 $b_{l-1}=0$ , 易证
$E[x_l^2] = \frac{1}{2} Var[y_{l-1}],$
其中 $f$ 是ReLU, 若 $f$ 是PReLU,
$E[x_l^2] = \frac{1+a^2}{2} Var[y_{l-1}].$
下面用ReLU分析, PReLU是类似的.

故
$Var[y_l] = \frac{1}{2} n_l ar[w_l]Var[y_{l-1}],$
自然我们希望
$Var[y_i]=Var[y_j] \Rightarrow \frac{1}{2}n_l Var[w_l]=1, \forall l.$

Backward case

$\tag{13} \Delta \mathbf{x}_l = \hat{W}_l \Delta \mathbf{y}_l,$
$\Delta \mathbf{x}_l$ 表示损失函数观念与 $\mathbf{x}_l$ 的导数, 这里的 $\mathbf{y}_l$ 与之前提到的 $\mathbf{y}_l$ 有出入, 这里需要用到卷积的梯度回传, 三言两语讲不清, $\hat{W}_l$ 是 $W_l$ 的一个重排.

因为 $\mathbf{x}_l=f(\mathbf{y}_{l-1})$ , 所以
$\Delta y_l = f'(y_l) \Delta x_{l+1}.$

假设 $f'(y_l)$ 与 $\Delta x_{l+1}$ 相互独立, 所以
$E[\Delta y_l]=E[f'(y_l)] E[\Delta x_{l+1}] = 0,$
若 $f$ 为ReLU:
$E[(\Delta y_l)^2] = Var[\Delta y_l] = \frac{1}{2}Var[\Delta x_{l+1}].$
若 $f$ 为PReLU:
$E[(\Delta y_l)^2] = Var[\Delta y_l] = \frac{1+a^2}{2}Var[\Delta x_{l+1}].$

下面以 $f$ 为ReLU为例, PReLU类似

$Var[\Delta x_l] = \hat{n}_l Var[w_l] Var[\Delta y_l] = \frac{1}{2} \hat{n}_l Var[w_l] Var[\Delta x_{l+1}],$
这里 $\hat{n}_l=k^2d$ 为 $\mathbf{y}_l$ 的长度.

和前向的一样, 我们希望 $Var[\Delta x_l]$ 一样, 需要
$\frac{1}{2}\hat{n}_l Var[w_l]=1, \forall l.$

是实际中，我们前向后向可以任选一个(因为误差不会累积).