机器学习_L1为什么比L2更容易产生稀疏解

我们首先可以设目标函数为 $L$ ，目标函数中的权值参数为 $w$ ，那么目标函数和权值参数的关系如下所示：

如上图所示，最优的 $w$ 在绿色的点处，而且 $w$ 非零。

我们首先可以使用L2正则进行优化，新的目标函数： $L + CW^{2}$ ，示意图如下蓝线所示：

机器学习_L1为什么比L2更容易产生稀疏解
我们可以看到，最优的 $w$ 出现在黄点处， $w$ 的绝对值减小了，更靠近横坐标轴，但是依然是非零的。

为什么是非零的呢？

我们可以对L2正则下的目标函数求导：

机器学习_L1为什么比L2更容易产生稀疏解
我们发现，权重 $w$ 每次乘上的是小于1的倍数进行收敛，而且其导数在 $w=0$ 时没有办法做到左右两边导数异号，所以L2正则使得整个训练过程稳定平滑，但是没有产生稀疏性。

接下来我们使用L1正则，新的目标函数： $L + C|w|$ ，示意图如下粉线所示：

机器学习_L1为什么比L2更容易产生稀疏解
这里最优的 $w$ 就变成了0。因为保证使用L1正则后 $x=0$ 处左右两个导数异号，就能满足极小值点形成的条件。

我们来看看这次目标函数求导的式子：

机器学习_L1为什么比L2更容易产生稀疏解
可以看出L1正则的惩罚很大， $w$ 每次都是减去一个常数的线性收敛，所以L1比L2更容易收敛到比较小的值，而如果 $C > |f^{'}(0)|$ ，就能保证 $w = 0$ 处取得极小值。

上面只是一个权值参数 $w$ 。在深度网路中，L1会使得大量的 $w$ 最优值变成0，从而使得整个模型有了稀疏性。