最近复习正则约束,考虑到从未本质上考虑过 L1 正则稀疏性问题,现查阅相关资料,总结整理如下:
1. 从优化问题来看
首先,我们要优化的是这个问题 wminED(w)+λER(w)。
其次, wminED(w)+λER(w) 和 wminED(w) s.t.ER(w)⩽η
这个优化问题是等价的,即对一个特定的 λ 总存在一个 η 使得这两个问题是等价的(这个是优化里的知识)。
最后,下面这个图表达的其实
wminED(w)s.t.ER(w)⩽η
这个优化问题,把 w 的解限制在黄色区域内,同时使得经验损失尽可能小。

下图是一个更直观的解读:

2. 从概率角度来看

3. 从梯度角度来看

参考文献
[1] l1 相比于 l2 为什么容易获得稀疏解? - 曹荣禹的回答
[2] l1 相比于 l2 为什么容易获得稀疏解? - 王小明的回答