主要内容:
网络越深,优化越难(此即梯度消失或梯度爆炸问题),但是有时候增加深度反而会加速网络优化。同时提出端到端更新规则,证明深度网络过度的参数化(overparameterization)也可能是件好事。
回归
以标量线性回归做实验,发现对一个网络进行过参数化操作,并没有改变网络的表现力,但却生成了非凸目标函数。而过度参数化不仅仅加速了梯度下降,而且其加速效果还优于两个著名的梯度下降方案——AdaGrad 和 AdaDelta。
过参数化:表现性的解耦优化
深层网络由于其优秀的表现力,越深的网络似乎收敛的越快。通过研究那些表征能力与网络深度无关的模型——线性神经网络,表明增加层数导致收敛加快不是优秀表征能力的副作用而是属于用于优化的深度的良好属性。
深度所带来的隐性动态过程
因为之前说到线性网络超参数化能够加速优化,所以我们学习一个线性模型,我们不直接用使用矩阵 W,而是将其替代为一个深度为 N 的线性神经网络。如果人们在上以低学习率η应用梯度下降,且有:
在全局端到端映射 W 引发的动力机制可以写作如下形式:
可以看成是 L(W) 梯度上的变换(从左边乘上,从右边
,然后求和。)
这是一种特殊的预处理方案,可促进沿优化方向的运动。更具体地说,预处理可以被认为是下述两种元素的结合:
一个适应性学习速率,它可以让步长增大,远离初始值;
一种类似于 momentum 的操作,沿着目前采用的方位角来拉伸梯度。
上述更新规则(以下称为端到端更新规则)不是依靠线性神经网络中隐藏层的的宽度,而是深度(N)。所以,从优化的角度看,使用宽或窄的网络的过参数化具有同样的效果。重要的仅仅是网络层的数量,因此用深度来加速没有计算上的需求——我们在实验中清楚地观察到了这一事实。
超越正则化
只要损失 L(W) 不在 W=0 位置有临界点,那么端到端更新规则(即过参数化的效力)就不能通过任何正则化来实现。
加速
无论我们是否增加网络的深度加速效果,一切都决定于对 p 的选择:对于 p=2(平方误差)增加网络的层数并不会导致加速(根据 Saxe et al. 2014 的发现);然而对于 p>2 来说,这是可以的,这或许是因为预处理方法可以在目标 landscape 上处理大型 plateaus。大量 p 的值为 2 和 4,深度在 1 到 8(经典线性模型)的实验,都支持了这个结论。
非线性实验
作为最后一项实验,我们评估了在一个简单深度学习设置(基于 MNIST 数据集的 TensorFlow 卷积网络教程)上过参数化对优化的效果。通过简单地连续放置两个矩阵,而不是每一密集层的矩阵,我们引入了过度参数化。通过添加大约 15% 的参数数量,优化的提升呈数量级增长。
我们发现,其它卷积网络上的相似实验同样可以获得提速,但是不如上述方法显著。过度参数化加速非线性优化的条件下的实证表征将是未来研究的一个有趣方向。
思考
本文从优化的角度借助过度参数化展示了增加深度的好处,但依然存在很多问题。例如,严格地分析端到端更新规则的加速效果是否可能(比如,可与 Nesterov 1983 或 Duchi et al. 2011 相类比)?当然,对非线性深度网络以及更多其它实证评估的探讨也是有益处的。