2020-10-26 （一）L1正则化与L2正则化

一、使用正则化的理由。

正则化能够降低过拟合风险，将最小化经验风险变为最小化结构风险。

二、使用步骤

1.L2正则化

2020-10-26 （一）L1正则化与L2正则化

L2正则化如上式，前一项MSE损失函数可以任意，后一项 2020-10-26 （一）L1正则化与L2正则化是L2正则化式。范数是赋范空间中定义的一种广义上的“距离”。2范数计算为平方和，例如：令，则。

2.L1正则化

2020-10-26 （一）L1正则化与L2正则化

同理，L1正则化使用L1范数。L1范数计算方式为向量各元素绝对值之和。同上例条件， 2020-10-26 （一）L1正则化与L2正则化。

3.为何正则化有效

①.直观示例

2020-10-26 （一）L1正则化与L2正则化

上图出自吴恩达课程房价预测的例子。比较左右两种解，右侧解发生了过拟合，这个函数曲线使用了更多参数且参数绝对值可能较大。加入正则化后，最小化目标添加了正则项，因此要在损失相同的函数族中选择能使 2020-10-26 （一）L1正则化与L2正则化最小的那一个，即选择参数平方和最小的解，这往往意味着该函数参数数量较小且绝对值较小。因此正则化之后，算法选择左边更加平滑的解，避免过拟合。

②. 从图形角度分析

2020-10-26 （一）L1正则化与L2正则化

在二维参数空间中举例，L2范数的代价函数 2020-10-26 （一）L1正则化与L2正则化，在拉格朗日乘数法的转化下，可以将正则化项写成约束条件：，其中C是与λ成反比的常量。考虑两种范数计算方法可知，2范数约束空间为左侧黄色圆，1范数约束的空间为右侧黄色菱形。

蓝色圆圈是代价函数的等值线，圆心是全局最小值对应的W。求解目标函数，就是在黄色区域内，求使得函数值最小的W。在我们举的例子中，左侧最小值只有出现在坐标轴上，求解的w1与w2才有一个为零。右侧只有最小值出现在棕色区域，w1与w2才均不为零。这也是L2与L1的区别，L1会导致更加稀疏的解。但不管怎样，正则化的目标函数解都选择更小的参数。

③.从导数角度分析

2020-10-26 （一）L1正则化与L2正则化

转自知乎，考虑只有一个参数w, 则L2(w的平方)的导数为2w，L1的导数在0处无定义，但是两侧极限反号，因此w = 0是函数的极值点。

2020-10-26 （一）L1正则化与L2正则化

④.其他

包括但不局限于PAC学习，Stein估计，先验概率等角度。

4. 其他正则化（一些胡言乱语）

一般来说，正则项使用任意Lp范数（无穷除外）都可以起到约束参数空间，简化模型复杂度的作用。不使用Lp范数猜测是因为该项梯度在远离零的地方太大，不使用L0范数是因为L0范数最优化是NP难的。

2020-10-26 （一）L1正则化与L2正则化

平滑L1正则化在 x较小时，对 x的梯度也会变小，而在 x很大时，对 x的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。完美地避开了L1和L2损失的缺陷。

总结

简单介绍了最常见的两种正则化L1与L2及它们的特点。

目录

一、使用正则化的理由。

二、使用步骤

1.L2正则化

2.L1正则化

3.为何正则化有效

①.直观示例

②. 从图形角度分析

③.从导数角度分析

④.其他

4. 其他正则化（一些胡言乱语）

总结