[cvpr2015]Improving training of deep neural networks via Singular Value Bounding

introduction

【training method】
Singular Value Bounding (SVB)：在网络训练过程中，通过将权重矩阵的奇异值限制在1附近，保证权值矩阵的正交性。
Bounded Batch Normalization (BBN)：用SVB的思想对BN的改进，去除了BN的ill-conditioning（ill-conditioning参考）的风险

算法

样本： ${x x_{i}, y y_{i}}_{i = 1}^{K}, x x_{i} \in R^{N_{x}}, y y_{i} \in R^{N_{y}}$
$l^{t h}$ 层（共 $L$ 层）输入特征： $x x^{l} = f (z^{l}) = f (W W^{l} x x^{l - 1} + b b^{l}) \in R^{N_{l}}, W W^{l} \in R^{N_{l} \times N_{l - 1}}, b b^{l} \in R^{N_{l}}$
有一些理论研究显示以正交的随机高斯矩阵初始化网络能够带来更好的表现，作者希望尝试在训练过程当中保持权重矩阵的正交性，具体来说：
$Θ = min_{{W W^{l}, b b^{l}}_{l = 1}^{L}} L ({x x_{i}, y y_{i}}_{i = 1}^{K}; Θ)$
$s . t . \forall l \in {1, . ., L}, W W^{l} \in O$
(其中 $O$ 指的是那些行向量（或者列向量）相互正交的矩阵的集合，即文中所提的Stiefel流形
通过在执行SGD的同时将权重矩阵的奇异值限制到 $[1 / (1 + ϵ), (1 + ϵ)]$ 来完成
SVB:

推导与证明

前向

为了简化，先使用两层神经网络 $W W^{2} W W^{1} x x$ (忽略bias)，线性**函数 $f (z) = z$ ，损失函数 $L = \frac{1}{2 K} \sum_{i = 1}^{K} | | y y_{i} - W W^{2} W W^{1} x x_{i} | |_{2}^{2}$
其中： $| | y y_{i} - W W^{2} W W^{1} x x_{i} | |_{2}^{2} = t r [(y y_{i} - W W^{2} W W^{1} x x_{i})^{T} (y y_{i} - W W^{2} W W^{1} x x_{i})] = t r (y y_{i}^{T} y y_{i}) - t r (y y_{i}^{T} (W W^{2} W W^{1} x x_{i})) - t r ((W W^{2} W W^{1} x x_{i})^{T} y y_{i}) + t r [(W W^{2} W W^{1} x x_{i})^{T} (W W^{2} W W^{1} x x_{i})] = t r (y y_{i}^{T} y y_{i}) - 2 t r [(W W^{1} x x_{i})^{T} W W^{2 T} y y_{i}] + t r [(W W^{1} x x_{i})^{T} (W W^{2 T} W W^{2}) (W W^{1} x x_{i})]$
上式对 $W 2 W 2$ 求偏导（矩阵求导可查表(WIKI)）可得:
$0 - 2 y y_{i} (W W^{1} x x_{i})^{T} + (W W^{2 T})^{T} (W W^{1} x x_{i}) (W W^{1} x x_{i})^{T} + (W W^{2 T})^{T} ((W W^{1} x x_{i})^{T})^{T} ((W W^{1} x x_{i}))^{T} = 2 [- y y_{i} x x_{i}^{T} + W W^{2} W W^{1} (x x_{i} x x_{i}^{T})] W W^{1 T}$
综上可得：
$\frac{\partial L}{\partial W W^{2}} = (C C^{x y} - W W^{2} W W^{1} C C^{x x}) W W^{1 T}$
类似地：
$\frac{\partial L}{\partial W W^{1}} = W W^{2 T} (C C^{x y} - W W^{2} W W^{1} C C^{x x})$
其中：
$C C^{y x} = \frac{1}{K} \sum_{i = 1}^{K} y y_{i} x x_{t}^{T}, C C^{x x} = \frac{1}{K} \sum_{i = 1}^{K} x x_{i} x x_{t}^{T}$
假设输入数据做了白化， $c c^{y x}$ 为 $x$ 和 $y$ 的交叉协方差矩阵(cross-covariance matrix，注意到x是zero-mean，不过y应该不会是zero-mean吧。。。就当近似)，而 $C C^{x x} = I I$
其中，对 $c c^{y x}$ 作奇异值分解 $C C^{y x} = U U^{y} S S^{y x} V V^{x T}$ ，由奇异值分解的性质，左奇异向量组成的 $U U^{y} \in R^{N_{y} \times N_{y}}$ 表示了输出空间 $R^{N_{y}}$ 内的一组基底（文中：represent independent directions of output
variations），右奇异向量组成的 $V V^{x} \in R^{N_{x} \times N_{x}}$ 则表示了输入空间 $R^{N_{x}}$ 的一组基底， $S S_{y x} \in R^{N_{y} \times N_{x}}$ 是包含了排序过的奇异值的对角矩阵
再对 $W W^{1}$ 和 $W W^{2}$ 作初始化为：
$W W^{1} = R R S S^{1} V V^{x T}, W W^{2} = R R S S^{2} V V^{x T}$
其中， $R R \in R^{N_{1} \times N_{1}}$ 是一个任意的正交矩阵，并且在训练过程当中保持不变。 $S S^{1}$ 和 $S S^{1}$ 都为对角矩阵
损失函数的偏导即是：
$\frac{\partial L}{\partial W W^{1}} = R R S S^{2 T} (S S^{y x} - S S^{2} S S^{1}) V V^{x T} \frac{\partial L}{\partial W W^{2}} = U U^{y} (S S^{y x} - S S^{2} S S^{1}) S S^{1 T} R R^{T}$
当 $R R$ 给定的时候，能够保证 $W W^{1}$ 和 $W W^{2}$ 沿着他们各自的基地变化(
are optimized along their respective independent
directions of variations. )
记 $s_{m}$ 、 $t_{m}$ 和 $σ_{m}$ 分别为 $S S^{1}$ 、 $S S^{1}$ 和 $S S^{y x}$ 的第m个对角元素，那么有:
$\frac{\partial L}{\partial s_{m}} = (σ_{m} - s_{m} t_{m}) t_{m}, \frac{\partial L}{\partial t_{m}} = (σ_{m} - s_{m} t_{m}) s_{m}$
（忽略常数部分）
其中， $L$ 可以和能量函数
$ε (s_{m}, t_{m}) = \frac{1}{2} (σ_{m} - s_{m} t_{m})^{2}$ 进行类比，
从这里可以清楚地看出，式
$s_{m} t_{m}$
正朝着 $σ_{m}$ 的方向优化。
将上述分析拓展到 $L$ 层：

其中， $W W^{l} = R R^{l} S S {R R^{l + 1}}^{T}$ ，权值矩阵的右奇异向量会作为下一层矩阵的左奇异向量，但是Algorithm 1（SVB）中并未做到这一点

（注： $σ_{M}$ 在给定训练数据时已经确定）
易证，当 $L$ 很大的时候，如果所有奇异值 $s_{m}^{l}$ 没有落在1附近，则式（10）是不能收敛的。
作者认为，由于目前的训练方法中没有对权值矩阵奇异值做出限制，因此所有层的权值矩阵能够在任意层和方向上放大或者缩小，导致结果容易陷入局部最小，使得仅仅只有一部分的输入-输出互相关关系（input-output correlations，我认为就是前文的矩阵 $C C^{y x}$ 中的向量）被使用到。
考虑一个两层模型 $W W^{l + 1} W W^{l}$ ，做奇异值分解，有: $W W^{l + 1} W W^{l} = U U^{l + 1} S S^{l + 1} {V V^{l + 1}}^{T} U U^{l} S S^{l} {V V^{l}}^{T}$ ，
记 $M M = S S^{l + 1} {V V^{l + 1}}^{T} U U^{l} S S^{l}$ ，其中该矩阵第 $m$ 行 $m^{^{'}}$ 列元素可记为：
$M M_{m, m^{^{'}}} = s_{m}^{l + 1} s_{m}^{l} ({v v_{m}^{l + 1}}^{T} u u_{m^{^{'}}}^{l})$
式中 $({v v_{m}^{l + 1}}^{T} u u_{m^{^{'}}}^{l})$ 表示 $l$ 层和 $l + 1$ 层之间的基底坐标变换（即表示了第l层ouput space第 $m^{^{'}}$ 个基上的变动与第(l+1)层input space第 $m$ 个基上的变动的混合）
Algorithm 1（SVB）能够通过限制 $s_{m}^{l}$ 和 $s_{m}^{l + 1}$ ，保证信号的变动从上一层传向下一层时，各个方向的强度更加适当（我的理解是避免了ill-conditioning的出现）。作者认为没有这些限制以后，一些方向的变动会被过度放大，使得别的方向的变动被缩小很多。

反向

记 $W W^{i} = R R^{i} S S {R R^{i + 1}}^{T}$ ，则有：
当网络很深的时候，容易发生 $\prod_{i = l + 1}^{L} s_{m}^{i}$ 的explode or vanish，导致最终的梯度爆炸和梯度消失。而作者的SVB能够避免这一情况的出现
（理想的情况下，SVB能够保证各层输入对 $L$ 的偏导后的范数和error vector $x x^{L}$ 对 $L$ 的偏导后的范数一致）

与BN的兼容（BBN，Bounded Batch Normalization）

BN引入了一个深层神经网络训练的问题：internal covariate shift（因各层输入的分布持续变化导致训练很慢），通过加入BN层能够缓解这一状况。
对于一层 $f (z z) = f (W x W x) \in R^{N}$ ，如果在**函数之前加入BN，即 $f (B N (z z)) = f (B N (W x W x))$ ,其中：

$B N (z z) = Γ Σ (z z - μ μ) + β β$
- (zero-mean)： $μ μ \in R^{N} 为层上单个神经元的输出的均值（共 N 个）$
- (norm->1)： $Σ \in R^{N \times N}$ 为对角矩阵，对角元素 ${1 / ς_{i}}_{i = 1}^{N}$ 为单个神经元输出的标准差再加一个小常数的倒数
- (scale)： $Γ \in R^{N \times N}$ 为包含展缩(scale)元素 ${γ_{i}}_{i = 1}^{N}$ 的度角矩阵
- (shift)： $β β$ 为可训练的偏置项
带入 $z = W x z = W x$ ：
$B N (x x) = \tilde{W W} x x + \tilde{b b} ， s . t . \tilde{W W} = Γ Σ W W ， \tilde{b b} = β β - Γ Σ μ μ$ ，其中对角矩阵 $Γ Σ$ 有对角元素 ${γ_{i} / ς_{i}}_{i = 1}^{N}$
由引理1：

可知矩阵 $Γ$ 和 $Σ$ 在BN中都能够使信号在层与层的传递中分布发生改变，当对角矩阵 $Γ Σ$ 的对角元素 ${γ_{i} / ς_{i}}_{i = 1}^{N}$ 同时偏离1比较远时，梯度爆炸/梯度弥散很容易出现了。
为了避免这种状况，作者打算将 ${γ_{i} / ς_{i}}_{i = 1}^{N}$ 限制在1附近，但是这样作会抹消BN的一个优点（ $Γ$ 和 $β$ 的存在能够使得BN在特定情况下退化为近似的恒定变换（ $γ_{i} \approx ς_{i}$ ，即消除BN的作用））
BN中，解耦出的 ${γ_{i}}_{i = 1}^{N}$ 能够显著地提升网络的适应性，受次启发，作者再引入一个解耦参数 $α$ ，使得SVB能够与BN算法兼容，即用 ${\frac{1}{α} γ_{i} / ς_{i}}_{i = 1}^{N}$ 替代 ${γ_{i} / ς_{i}}_{i = 1}^{N}$ ，将 ${\frac{1}{α} γ_{i} / ς_{i}}_{i = 1}^{N}$ 在训练过程当中限制到 $[1 / (1 + ϵ), (1 + ϵ)]$
BBN:

Experiment

作者在：

CIFAR 10
CIFAR 100
ImageNet

数据集上，使用

标准的卷积神经网络
ResNets
Wide ResNets

对算法SVB和BBN做了测试
（作者的实验结果表示当网络较深的时候，BBN确实表现的比普通的BN更加优秀）

[cvpr2015]Improving training of deep neural networks via Singular Value Bounding