正则化（L1和L2范数）

说实话，这么后才来写正则化是挺奇怪的。

相信大家都知道损失函数，是用来描述我们模型与训练数据之间的差距（即是否能准确拟合训练数据）。但其实我们真正在实战用的是目标函数。目标函数的构造是：损失函数+正则化。

参考
https://blog.csdn.net/zouxy09/article/details/24971995 (大神）
http://www.cnblogs.com/ooon/p/4964441.html
https://blog.csdn.net/li8zi8fa/article/details/77649973

为什么需要正则化

我们先来假设，如果分类时我们的损失 $L o s s = 0$ 出现的情况。那就是，对于每一个训练的数据，我们都能正确输出它的类别。这听起来很好，是百分百的正确。但事实上，我们应用这个模型的场景并不是训练的数据，而是测试的数据。因此我们把这个问题称为过拟合（Overfitting)

图片来自于：https://baijiahao.baidu.com/s?id=1591715304965529269&wfr=spider&for=pc

我们可以换个说法。假如我们想训练猫这个分类，但是我们刚好训练集都是橘猫，如果我们过拟合了，它提取的特征不再是猫身，猫尾这些形状，反而会执着于提取肥硕的猫身（哈哈哈哈），黄色的尾巴。但其实我们更想让它适应的范围变大（泛化能力变强），即检测猫这个分类的特征而不是橘猫的特征。所以我们加入了正则化，来使得这个模型不会过拟合。

https://www.zhihu.com/question/32246256 知乎有很多搞笑生动的例子。

来自百度百科

正则化这部分，在斯坦福的CS231n也被称为惩罚项。而且Johnson讲了个另外一个说法。像上图那样，其实过拟合的实质原因是提取的参数太多了太复杂了，而我们加入正则化之后，会抵消部分的参数，这样可以简化这个模型（泛化能力加强）。

怎么正则化

按照我们一开始的描述，就是不仅仅使用损失函数，而是加上一个正则化的部分让它变成目标函数。而我们minimize的值是目标函数值。那么权重为：

\hat{w} = a r g m i n_{w} \sum_{i = 1} l o s s (y_{i}, f (x_{i}; w)) + λ L (w)

后边的那部分就是惩罚项，前面有个参数 $λ$ 。那正则化的部分应该是什么样的？一般是使用L1范数和L2范数。
（https://www.zhihu.com/question/20473040/answer/102907063 常用的向量范数和矩阵范数的定义）

L1范数

L1范数的公式是： $‖ w ‖_{1} = \sum_{i} | w_{i} |$ ，即所有权重之和。

L1范数被人认为可以使参数变得更稀疏，即为0的参数项更多。emmm，其实换种说法就是减少参数的数量，跟一开始说的一样。那么如何做到呢？

来自于： https://blog.csdn.net/li8zi8fa/article/details/77649973

必须注意的是！！！它这里的正则化其实只取了 $w^{t}$ 的正负号(我也不知道为什么忽略了权重的值，具体不了解）。

也就是说这里的 $η \cdot λ$ 不是直接的乘积，它的值的正负取决于 $w^{t}$ 。那我们就可以推导出:

假如 $w^{t} > 0$ ，那 $w^{t + 1} = （ 1 - η \cdot λ ） w^{t} - η \frac{\partial L}{\partial w}$ 。
假如 $w^{t} < 0$ ，那 $w^{t + 1} = （ 1 + η \cdot λ ） w^{t} - η \frac{\partial L}{\partial w}$ 。
通过这样，接近于0的参数就很容易变成0。