正则化:ML中的一种策略,可减少测试误差,提高模型泛化能力。

开发更有效的正则化策略:深度学习领域主要研究工作之一。

模型族训练的三个过程:

  1. 不包括真实的数据生成过程,欠拟合和含有偏差。
  2. 匹配真实数据生成过程
  3. 除了2中,还包括许多其他可能的生成过程,方差主导的过拟合

正则化的目标:使得模型从第3种转化为第2种。

1. 参数范数惩罚

1.1 L2参数正则化

权重衰减。

目标函数:

7. 深度学习实践:正则化
梯度为:

7. 深度学习实践:正则化

单步梯度下降:

7. 深度学习实践:正则化

换种写法:

7. 深度学习实践:正则化

加入权重衰减引起学习规则的修改:每步梯度更新前,会先收缩权重向量。

分析训练的整个过程:

w为不含正则化的目标函数取得最小训练误差时的权重向量。并在其邻域内对目标函数做二次近似。近似的J^(θ)如下:

7. 深度学习实践:正则化

HJw处计算的Hessian矩阵。半正定的。当J^取得最小时,其梯度为

7. 深度学习实践:正则化
为0。在该式中添加权重衰减的梯度,用w~表示此时的最优点。

7. 深度学习实践:正则化

α趋近于0时,正则化的解w~会趋近于w。当α增加时如何?

因为H实对称的,将其分解为一个对角矩阵和一组特征向量的标准正交基Q,可得:

7. 深度学习实践:正则化

权重衰减的效果是:沿着H的特征向量定义的轴来缩放w,根据λiλi+α因子缩放与Hi个特征向量对齐的w的分量。为啥缩放因子是这个?纠结了半天,这样解释合理了:

7. 深度学习实践:正则化
w~小,w大。不严谨的做个除法就是:

w~=HH+αIw

λiα时,H特征值较大,正则化影响较小,几乎沿该轴无缩放。当λiα时,H特征值较小,正则化影响较大,沿着该轴的分量缩放趋近于0。

7. 深度学习实践:正则化

如该图:实线椭圆表示没有正则化目标的等值线。虚线圆圈表示L2正则化的等值线。在w~点两个竞争目标达到平衡。H是此处的海森矩阵,因此处水平缓慢,垂直陡急,则将H特征值分解后,w1方向的特征值λ1很小,w2方向的特征值λ2很大。这预示着当我们从w水平移动时,目标函数增加得不太多(等高线宽,坡度较缓),目标函数对该方向没有强烈偏好,正则化项对该轴影响强,逼着为0走。当从w垂直移动时,目标函数增加剧烈(等高线窄,坡度较急),目标函数对第二维非常敏感,影响较小。

1.2 L1正则化

书中7.1.2节进行了假设性的讨论。不再赘述。

结论:L1正则化会产生更加稀疏的解,最优值中一些参数为0。

L1正则化导出的稀疏性质,被广泛用于特征选择。例如LASSO模型将L1惩罚和线性模型结合。

L2中的解:w~=HH+αIw,如果w不为0,则解不为0。正则化不会使参数变得稀疏。两者对比直观图,在周志华机器学习笔记中有过。

2. 数据集增强

提高模型泛化能力的最好办法是使用更多的数据进行训练。因实际数据量有限,一个办法是创建假数据并添加到数据集中。

例如分类问题中的对象识别,沿训练图像每个方向平移几个像素的操作通常可以大大改善泛化。旋转,缩放等也已被证明行之有效。但不能改变类别。比如OCR中的6和9,不能这样干。数据集增强对语音识别也有效的。

在NN的输入层注入噪声,也可被视为数据集增强的一种方式。然而,NN对噪声不是非常健壮(NN容易过拟合)。改善方法之一:简单的将随机噪声添加到输入再进行训练。

3. 噪声鲁棒性

对于某些模型,向输入添加方差极小的噪声,等价于对权重施加范数惩罚(1995年Bishhop就发现提出,看来需要回顾20年前的文章)。一般的,噪声注入远比简单收缩参数要更强大,Dropout算法是该做法的发展方向。

3.1 权重上加噪声

一种正则化模型的噪声方式:将其加到权重上。RNN中用。解释:关于权重的贝叶斯推断的随机实现。贝叶斯学习将权重视为不确定的,可通过概率分布表示这种不确定性。向权重添加噪声是反映这种不确定性的一种实用随机方法。

施加于权重的噪声,还可被解释为与传统正则化形式等同的效果:它鼓励要学习的函数保持稳定。鼓励参数进入权重小扰动对输出相对影响较小的参数空间区域。找到的点不只是极小点,还是由平坦区域包围的最小点。

3.2 输出上加噪声

大多数数据集的标签都有错误。我们可以显式地对标签上的噪声进行建模。例如,对标记取其是正确的概率。

标签平滑:通过把确切分类目标从0和1替换为ϵk11ϵ,正则化具有k个输出的softmax函数的模型。标准交叉熵损失可以用在这些非确切目标的输出上。

使用softmax和明确目标的最大似然学习可能永远不会收敛:softmax函数永远无法真正预测0概率或1概率。因此它会继续学习越来越大的权重,预测更极端。权重衰减可防止这种情况,标签平滑也可以解决该问题。

4. 半监督学习

半监督学习框架:P(x)产生的未标记样本,和P(x,y)中的标记样本都用于估计P(y|x)

DL背景下,半监督学习通常是指:学习一个表示h=f(x)。学习表示的目的:相同类中的样本由类似的表示。无监督学习可以帮助:输入空间紧密聚集的样本应该被映射到类似表示。

一般的,新空间上的线性分类器可以达到较好的泛化。例如。可以使用主成分分析(无监督)预处理,然后在投影后的新空间上分类(有监督)。合起来就是半监督。

5. 多任务学习

7. 深度学习实践:正则化

下层:所有任务共享参数
上层:具体任务的参数

共享参数的样本数量相对于单任务增加,改善泛化。前提:不同任务间存在某些统计关系的假设是合理的。

从DL看,底层的先验知识:不同任务中观察到的,解释数据变化的因素中,某些因素是跨两个或更多任务共享的。

6. 提前终止

训练中几乎一定会出现:

7. 深度学习实践:正则化

这启发我们:每次验证集误差有所改善后,存储模型参数的副本。训练算法终止时,返回最优参数,而非最新参数。当验证集上的误差在事先指定的循环次数内没有进一步改善时,算法终止。这就是提前终止策略。有效,简单,常用的正则化。

6.1 提前终止为什么具有正则化效果?

从验证集上的U形损失可看出,提前终止是起到了一种正则化策略的效果。

底层的真正机制是什么呢?作者在该节以一种假设讨论了,不赘述。

结论:提前终止可以将优化过程的参数空间,限制在初始参数值的小领域内(1995年)。

7. 深度学习实践:正则化

两种逼近w^的方式路径相反。左图是从原点开始扩大,右图是L2惩罚逼迫最小值去逼近原点。想象用学习率ϵ进行τ个优化步骤,则ϵτ可表示参数空间的大小,其效果就好像是权重衰减系数的倒数。空间越大,则越接近最优点,代表着权重衰减系数越小。反之空间越小,代表着权重衰减系数越大。

相关文章:

  • 2021-05-13
  • 2021-04-07
  • 2021-04-26
  • 2021-12-04
  • 2021-08-07
  • 2022-01-12
猜你喜欢
  • 2021-05-28
  • 2021-08-03
  • 2021-08-09
  • 2021-05-31
  • 2021-10-17
相关资源
相似解决方案