Empirical Evaluation of Rectified Activation in Convoluation Network
对神经网络**函数的经验评估
Standard rectified linear unit relu 标准整流线单元 这是最常用的**函数
Leaky rectified linear unit lrelu
Parametric rectified linear unit prelu
Randomized leakly rectified linear unit rrelu
我们的实验表明, 在整流活化单元中, 将非零斜率合并为负的部分可以持续地改善结果。
此外, 在小规模数据集上, 使用确定性负斜率或学习它都容易拟。
所以在遥感影像数据集上高质量有标签数据的缺乏,小数据集的特性是更适合rrelu的。
尽管其深度,现代深度学习系统的关键特征之一是使用非饱和**函数(例如ReLU)来替换其饱和对象(例如S形,tanh)。
使用非饱和**(rrelu)功能的优点在于两个方面:一是解决所谓的“爆炸/消失梯度”,二是加快收敛速度。
讨论一下**函数:
神经元只对输入部分的少部分选择性响应,大部分信号被屏蔽了,这样可以提高学习的精度,更快更好的获取稀疏学习特征。传统的sigmoid函数,同时有近乎一半的神经元被**,不符合神经元**的特性。
最重要的两点,第一:稀疏神经元**的稀疏性。第二,**函数的区域性。
关于稀疏性的特点:
- 信息解离:
当前,深度学习一个明确的目标是从数据变量中解离出关键因子。原始数据(以自然数据为主)中通常缠绕着高度密集的特征。原因是这些特征向量是相互关联的,一个小小的关键因子可能牵扰着一堆特征,有点像蝴蝶效应,牵一发而动全身。
基于数学原理的传统机器学习手段在解离这些关联特征方面具有致命弱点。
然而,如果能够解开特征间缠绕的复杂关系,转换为稀疏特征,那么特征就有了鲁棒性(去掉了无关的噪声)
- 线性可分性:
稀疏特征有更大可能线性可分,或者对非线性映射机制有更小的依赖。因为稀疏特征处于高维的特征空间上(被自动映射了)
从流形学习观点来看(参见降噪自动编码器),稀疏特征被移到了一个较为纯净的低维流形面上。
线性可分性亦可参照天然稀疏的文本型数据,即便没有隐层结构,仍然可以被分离的很好。
- 稀疏性**函数的作用:
**函数本身具有稀疏性,可以更有效的从数据集上学习到相对稀疏的特征。起到自动化解离的效果。
过分强调稀疏性引入也不好,会减少模型的有效容量,即特征屏蔽太多,导致模型无法学习到有效特征。论文中对稀疏性的引入度做了实验,理想稀疏性(强制置0)比率是70%~85%。超过85%,网络就容量就成了问题,导致错误率极高。对比大脑工作的95%稀疏性来看,现有的计算神经网络和生物神经网络还是有很大差距的。
庆幸的是,ReLu只有负值才会被稀疏掉,即引入的稀疏性是可以训练调节的,是动态变化的。
只要进行梯度训练,网络可以向误差减少的方向,自动调控稀疏比率,保证**链上存在着合理数量的非零值。
Relu函数,使得迷行自动引入稀疏性,这一做法,等效于无监督学习的预训练。缩小了非监督和监督学习之间的代沟,当然,加快了网络训练速度。
First, is sparsity the most important factor for a good performance?
Second, can we design better non-saturated activation functions that could beat ReLU?
相比较于relu的负数部分全部取0,对lrelu,ai是固定的,对prelu,ai是学习得到的,对Rrelu,ai在训练集上是一个在一定范围内随机变化的,在测试集上是固定的。
Relu:
Lrelu:
在原论文中,ai值被设为接近100,这篇论文中,该值设定为5.5
leaked = tf.scalar_mul(leaky_ratio, features)
tensor = tf.maximum(features, leaked,
name='maximum')
return tensor
Prelu:
公式同lrelu,不过ai是通过反向传播算法从训练上学习到的。
Rrelu:
aji服从均匀分布,对aji的取值
实验结果:
1.CIFAR-10/100 采用NIN或者Inception结构上进行了不同**函数的训练
2.National Data Science Bowl Competition
NDSB Net
Result and Discussion
以relu函数为基准,
- lrelu表现好于relu,a=100与relu差不多,但是a越小,效果越好
- 在训练集上,prelu的loss最低的,而lrelu和rrelu的loss都要比relu要高,这说明prelu可能在小数据集上存在比较严重的过拟合问题。
- 在NDSB数据集上训练集更小,但是模型结构更大,所以说Rrelu在对抗过拟合的时候效果更好。
结论:
- relu函数并不是最好的,lrelu变体就很好,但是缺乏理论支持。
- 大尺度数据集上的**函数?