论文:https://arxiv.org/pdf/1512.03385.pdf
摘要:
论文提出了一个剩余学习框架来简化神经网络的训练,直接重新构造(神经网络)层作为学习相关输入层的剩余方程,而不是学习不相关的方程。
介绍:
在之前的研究里,都把神经网络的深度作为最重要的因素。论文提出疑问:是不是更深的神经网络层数,就可以更好的学习到特征信息?在进行梯度下降的时候,容易出现梯度爆照或者梯度消失的问题。当深度不断增加后,网络的精读先会饱和,然后迅速下降。精度迅速下降不是由于过拟合而导致的,在一个合适的深度模型中添加更多神经层会导致更大的训练误差(过拟合是指训练误差非常小,而测试误差非常大)。训练精度的下降表明,不是所有的系统都容易优化,论文提出了一个简单的框架,并增加一个该框架的更深的对比网络(增加了更多的神经层)。论文提出一个更深的网络,添加的层有更多的映射,其他层是简单的从最初的模型中辅助过来的。更深神经层的模型产生的训练误差应该没有最初的模型产生的训练误差多,但是实验证明,直接添加的网络没有达到实验预期效果。
为了解决上述提到的训练精度下降的问题,论文提出了残差学习框架,来替代直接直接在原有的层上添加更多的神经层,将标注映射看做,论文使添加非线性层匹配其他映射,定义为:
,最初的映射重铸为
,论文假设优化残差映射比优化最原始的、无关的映射要容易些。如果一个目标映射可优化,它使得残差变为0比匹配非线性神经层特性映射要容易。
论文将称为shortcut connections,在论文中仅代表特性映射,它们的输出被添加到叠加层的输出上,他们没有添加多余的超参数或者计算难度。论文实验显示:① 使用shortcut connetctions的神经网络容易优化,并且相比于对比实验中(直接添加层)的模型有更低的训练误差 ②添加层数以后,训练精读提升。
网络架构: