目录

一、使用正则化的理由。

二、使用步骤

1.L2正则化

2.L1正则化

3.为何正则化有效

①.直观示例

②. 从图形角度分析

③.从导数角度分析

 

④.其他

4. 其他正则化(一些胡言乱语)

总结

 

一、使用正则化的理由。

   正则化能够降低过拟合风险,将最小化经验风险变为最小化结构风险。

二、使用步骤

1.L2正则化

2020-10-26 (一)L1正则化与L2正则化

L2正则化如上式,前一项MSE损失函数可以任意,后一项2020-10-26 (一)L1正则化与L2正则化 是L2正则化式。范数是赋范空间中定义的一种广义上的“距离”。2范数计算为平方和,例如:令 2020-10-26 (一)L1正则化与L2正则化 , 则  2020-10-26 (一)L1正则化与L2正则化 。

 

2.L1正则化

2020-10-26 (一)L1正则化与L2正则化

同理,L1正则化使用L1范数。L1范数计算方式为向量各元素绝对值之和。同上例条件,2020-10-26 (一)L1正则化与L2正则化 。

3.为何正则化有效

①.直观示例

2020-10-26 (一)L1正则化与L2正则化

    上图出自吴恩达课程房价预测的例子。比较左右两种解,右侧解发生了过拟合,这个函数曲线使用了更多参数且参数绝对值可能较大。加入正则化后,最小化目标添加了正则项,因此要在损失相同的函数族中选择能使  2020-10-26 (一)L1正则化与L2正则化 最小的那一个,即选择参数平方和最小的解,这往往意味着该函数参数数量较小且绝对值较小。因此正则化之后,算法选择左边更加平滑的解,避免过拟合。

 

②. 从图形角度分析

2020-10-26 (一)L1正则化与L2正则化

       在二维参数空间中举例,L2范数的代价函数  2020-10-26 (一)L1正则化与L2正则化 ,在拉格朗日乘数法的转化下,可以将正则化项写成约束条件:2020-10-26 (一)L1正则化与L2正则化 ,其中C是与λ成反比的常量。考虑两种范数计算方法可知,2范数约束空间为左侧黄色圆,1范数约束的空间为右侧黄色菱形。

       蓝色圆圈是代价函数的等值线,圆心是全局最小值对应的W。求解目标函数,就是在黄色区域内,求使得函数值最小的W。在我们举的例子中,左侧最小值只有出现在坐标轴上,求解的w1与w2才有一个为零。右侧只有最小值出现在棕色区域,w1与w2才均不为零。这也是L2与L1的区别,L1会导致更加稀疏的解。但不管怎样,正则化的目标函数解都选择更小的参数。

 

③.从导数角度分析

2020-10-26 (一)L1正则化与L2正则化

      转自知乎,考虑只有一个参数w, 则L2(w的平方)的导数为2w,L1的导数在0处无定义,但是两侧极限反号,因此w = 0是函数的极值点。

2020-10-26 (一)L1正则化与L2正则化

 

④.其他

      包括但不局限于PAC学习,Stein估计,先验概率等角度。

 

4. 其他正则化(一些胡言乱语)

        一般来说,正则项使用任意Lp范数(无穷除外)都可以起到约束参数空间,简化模型复杂度的作用。不使用Lp范数猜测是因为该项梯度在远离零的地方太大,不使用L0范数是因为L0范数最优化是NP难的。

        2020-10-26 (一)L1正则化与L2正则化

                               2020-10-26 (一)L1正则化与L2正则化

        平滑L1正则化在 x较小时,对 x的梯度也会变小,而在 x很大时,对 x的梯度的绝对值达到上限 1,也不会太大以至于破坏网络参数。  完美地避开了L1和L2损失的缺陷。

总结

简单介绍了最常见的两种正则化L1与L2及它们的特点。

相关文章:

  • 2021-11-15
  • 2021-07-21
  • 2021-12-19
  • 2021-05-01
  • 2021-05-21
  • 2021-12-08
猜你喜欢
  • 2021-07-29
  • 2021-05-24
  • 2021-07-20
  • 2021-04-05
相关资源
相似解决方案