L1正则化和L2正则化面试常考题

正则化

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓“惩罚”是指对损失函数中的某些参数做一些限制
L1正则化是指权值向量w中各个元素的绝对值之和
L2正则化是指权值向量w中各个元素的平方和然后再求平方根

L1正则化和L2正则化区别

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合；一定程度上，L1也可以防止过拟合

正则化为什么能降低过拟合程度？并且说明下下L1正则化和L2正则化。

降低过拟合程度：正则化之所以能够降低过拟合的原因在于，正则化是结构风险最小化的一种策略实现。给loss function加上正则化项，能使得新得到的优化目标函数h = f+normal，需要在f和normal中做一个权衡（trade-off），如果还像原来只优化f的情况下，那可能得到一组解比较复杂，使得正则项normal比较大，那么h就不是最优的，因此可以看出加正则项能让解更加简单，通过降低模型复杂度，得到更小的泛化误差，降低过拟合程度。
L1正则化和L2正则化：L1正则化就是在loss function后加正则项为L1范数，加上L1范数容易得到稀疏解(0比较多)。L2正则化就是loss function后加正则项为L2范数的平方，加上L2正则相比于L1正则来说，得到的解比较平滑(不时稀疏)。但是同样能够保证解中接近于0(但不是等于0，所以相对平滑)的维度比较多，降低模型的复杂度。

为什么 L1 正则可以产生稀疏模型(很多参数=0)，而 L2 正则不会出现很多参数为0的情况？

把W的解限制在黑色区域内，同时使得经验风险尽可能小，因此取交点就是最优解，从图中可以看出，因为L1正则黑色区域是有棱角的，所以更容易在棱角取得交点，从而导致出现参数为0的情况

参考文章
参考文章1
参考文章2
参考文章3