我们首先可以设目标函数为,目标函数中的权值参数为,那么目标函数和权值参数的关系如下所示:
如上图所示,最优的在绿色的点处,而且非零。
我们首先可以使用L2正则进行优化,新的目标函数:,示意图如下蓝线所示:
我们可以看到,最优的出现在黄点处,的绝对值减小了,更靠近横坐标轴,但是依然是非零的。
为什么是非零的呢?
我们可以对L2正则下的目标函数求导:
我们发现,权重每次乘上的是小于1的倍数进行收敛,而且其导数在时没有办法做到左右两边导数异号,所以L2正则使得整个训练过程稳定平滑,但是没有产生稀疏性。
接下来我们使用L1正则,新的目标函数:,示意图如下粉线所示:
这里最优的就变成了0。因为保证使用L1正则后处左右两个导数异号,就能满足极小值点形成的条件。
我们来看看这次目标函数求导的式子:
可以看出L1正则的惩罚很大,每次都是减去一个常数的线性收敛,所以L1比L2更容易收敛到比较小的值,而如果,就能保证处取得极小值。
上面只是一个权值参数。在深度网路中,L1会使得大量的最优值变成0,从而使得整个模型有了稀疏性。