1.范数定义
p范数:
1范数:
相应的L1正则项:
以矩阵 为例:
2范数:
相应的L2正则项:
2.区别
L1:得到的参数的先验概率分布满足拉普拉斯分布,鲁棒性 (Robust) 更强,对异常值不敏感, 适合获得稀疏解,可用于特征选择等场景;
L2:得到的参数w的先验概率分布满足高斯分布,求取的值会相对均匀点,对大数,outlier更敏感,可用于特征数大于样本数的场景。
此外, Lasso回归是在普通线性回归,加上对系数 w 的L1范数约束;
岭回归是在普通线性回归,加上对系数矩阵 w 的L2范数约束。
3.分析原因
L1 正则项和L2正则项不一样的原因是:
两者的梯度函数不一样,L1范数梯度要么是 -1,要么是1,经过多次更新,矩阵 w 很可能变为 0;
而,L2范数在 w 的值接近 0 时,梯度也会变小,使得 w 不断接近0,而不是0。
参考: