我们首先可以设目标函数为LL,目标函数中的权值参数为ww,那么目标函数和权值参数的关系如下所示:

机器学习_L1为什么比L2更容易产生稀疏解

如上图所示,最优的ww在绿色的点处,而且ww非零。

我们首先可以使用L2正则进行优化,新的目标函数:L+CW2L + CW^{2},示意图如下蓝线所示:

机器学习_L1为什么比L2更容易产生稀疏解
我们可以看到,最优的ww出现在黄点处,ww的绝对值减小了,更靠近横坐标轴,但是依然是非零的。

为什么是非零的呢?

我们可以对L2正则下的目标函数求导:

机器学习_L1为什么比L2更容易产生稀疏解
我们发现,权重ww每次乘上的是小于1的倍数进行收敛,而且其导数在w=0w=0时没有办法做到左右两边导数异号,所以L2正则使得整个训练过程稳定平滑,但是没有产生稀疏性。

接下来我们使用L1正则,新的目标函数:L+CwL + C|w|,示意图如下粉线所示:

机器学习_L1为什么比L2更容易产生稀疏解
这里最优的ww就变成了0。因为保证使用L1正则后x=0x=0处左右两个导数异号,就能满足极小值点形成的条件。

我们来看看这次目标函数求导的式子:

机器学习_L1为什么比L2更容易产生稀疏解
可以看出L1正则的惩罚很大,ww每次都是减去一个常数的线性收敛,所以L1比L2更容易收敛到比较小的值,而如果C>f(0)C > |f^{'}(0)|,就能保证w=0w = 0处取得极小值。

上面只是一个权值参数ww。在深度网路中,L1会使得大量的ww最优值变成0,从而使得整个模型有了稀疏性。

相关文章:

  • 2021-12-30
  • 2021-08-15
  • 2021-09-19
  • 2021-10-26
  • 2021-11-20
  • 2021-09-19
猜你喜欢
  • 2022-01-18
  • 2021-07-17
  • 2021-05-22
  • 2022-12-23
  • 2021-08-02
  • 2021-09-15
相关资源
相似解决方案