L1正则化和L2正则化

p范数：
L1正则化和L2正则化
1范数：

相应的L1正则项：
以矩阵 $w$ 为例：
$\sum_{i=1}^k|w_i|$
2范数：

相应的L2正则项：
$\sum_{i=1}^k w_i^2$

L1正则化和L2正则化

L1：得到的参数的先验概率分布满足拉普拉斯分布，鲁棒性 (Robust) 更强，对异常值不敏感, 适合获得稀疏解，可用于特征选择等场景；
L2：得到的参数w的先验概率分布满足高斯分布，求取的值会相对均匀点，对大数，outlier更敏感，可用于特征数大于样本数的场景。

此外， Lasso回归是在普通线性回归，加上对系数 w 的L1范数约束；
岭回归是在普通线性回归，加上对系数矩阵 w 的L2范数约束。

L1 正则项和L2正则项不一样的原因是：
L1正则化和L2正则化

两者的梯度函数不一样，L1范数梯度要么是 -1，要么是1，经过多次更新，矩阵 w 很可能变为 0；
而，L2范数在 w 的值接近 0 时，梯度也会变小，使得 w 不断接近0，而不是0。

参考：