目录
一、使用正则化的理由。
正则化能够降低过拟合风险,将最小化经验风险变为最小化结构风险。
二、使用步骤
1.L2正则化
L2正则化如上式,前一项MSE损失函数可以任意,后一项 是L2正则化式。范数是赋范空间中定义的一种广义上的“距离”。2范数计算为平方和,例如:令
, 则
。
2.L1正则化
同理,L1正则化使用L1范数。L1范数计算方式为向量各元素绝对值之和。同上例条件, 。
3.为何正则化有效
①.直观示例
上图出自吴恩达课程房价预测的例子。比较左右两种解,右侧解发生了过拟合,这个函数曲线使用了更多参数且参数绝对值可能较大。加入正则化后,最小化目标添加了正则项,因此要在损失相同的函数族中选择能使 最小的那一个,即选择参数平方和最小的解,这往往意味着该函数参数数量较小且绝对值较小。因此正则化之后,算法选择左边更加平滑的解,避免过拟合。
②. 从图形角度分析
在二维参数空间中举例,L2范数的代价函数 ,在拉格朗日乘数法的转化下,可以将正则化项写成约束条件:
,其中C是与λ成反比的常量。考虑两种范数计算方法可知,2范数约束空间为左侧黄色圆,1范数约束的空间为右侧黄色菱形。
蓝色圆圈是代价函数的等值线,圆心是全局最小值对应的W。求解目标函数,就是在黄色区域内,求使得函数值最小的W。在我们举的例子中,左侧最小值只有出现在坐标轴上,求解的w1与w2才有一个为零。右侧只有最小值出现在棕色区域,w1与w2才均不为零。这也是L2与L1的区别,L1会导致更加稀疏的解。但不管怎样,正则化的目标函数解都选择更小的参数。
③.从导数角度分析
转自知乎,考虑只有一个参数w, 则L2(w的平方)的导数为2w,L1的导数在0处无定义,但是两侧极限反号,因此w = 0是函数的极值点。
④.其他
包括但不局限于PAC学习,Stein估计,先验概率等角度。
4. 其他正则化(一些胡言乱语)
一般来说,正则项使用任意Lp范数(无穷除外)都可以起到约束参数空间,简化模型复杂度的作用。不使用Lp范数猜测是因为该项梯度在远离零的地方太大,不使用L0范数是因为L0范数最优化是NP难的。
平滑L1正则化在 x较小时,对 x的梯度也会变小,而在 x很大时,对 x的梯度的绝对值达到上限 1,也不会太大以至于破坏网络参数。 完美地避开了L1和L2损失的缺陷。
总结
简单介绍了最常见的两种正则化L1与L2及它们的特点。