1.范数定义

p范数:
L1正则化和L2正则化
1范数:
L1正则化和L2正则化
相应的L1正则项:
以矩阵ww 为例:
i=1kwi \sum_{i=1}^k|w_i|
2范数:
L1正则化和L2正则化
相应的L2正则项:
i=1kwi2 \sum_{i=1}^k w_i^2

2.区别

L1正则化和L2正则化

L1:得到的参数的先验概率分布满足拉普拉斯分布,鲁棒性 (Robust) 更强,对异常值不敏感, 适合获得稀疏解,可用于特征选择等场景;
L2:得到的参数w的先验概率分布满足高斯分布,求取的值会相对均匀点,对大数,outlier更敏感,可用于特征数大于样本数的场景。

此外, Lasso回归是在普通线性回归,加上对系数 w 的L1范数约束;
岭回归是在普通线性回归,加上对系数矩阵 w 的L2范数约束。

3.分析原因

L1 正则项和L2正则项不一样的原因是:
L1正则化和L2正则化
L1正则化和L2正则化
两者的梯度函数不一样,L1范数梯度要么是 -1,要么是1,经过多次更新,矩阵 w 很可能变为 0;
而,L2范数在 w 的值接近 0 时,梯度也会变小,使得 w 不断接近0,而不是0。


参考:

  1. l1正则与l2正则的特点是什么,各有什么优势?;

相关文章: