正则化

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓“惩罚”是指对损失函数中的某些参数做一些限制
L1正则化是指权值向量w中各个元素的绝对值之和
L2正则化是指权值向量w中各个元素的平方和然后再求平方根

L1正则化和L2正则化区别

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
L2正则化可以防止模型过拟合;一定程度上,L1也可以防止过拟合

正则化为什么能降低过拟合程度?并且说明下下L1正则化和L2正则化。

降低过拟合程度:正则化之所以能够降低过拟合的原因在于,正则化是结构风险最小化的一种策略实现。给loss function加上正则化项,能使得新得到的优化目标函数h = f+normal,需要在f和normal中做一个权衡(trade-off),如果还像原来只优化f的情况下,那可能得到一组解比较复杂,使得正则项normal比较大,那么h就不是最优的,因此可以看出加正则项能让解更加简单,通过降低模型复杂度,得到更小的泛化误差,降低过拟合程度。
L1正则化和L2正则化:L1正则化就是在loss function后加正则项为L1范数,加上L1范数容易得到稀疏解(0比较多)。L2正则化就是loss function后加正则项为L2范数的平方,加上L2正则相比于L1正则来说,得到的解比较平滑(不时稀疏)。但是同样能够保证解中接近于0(但不是等于0,所以相对平滑)的维度比较多,降低模型的复杂度。

为什么 L1 正则可以产生稀疏模型(很多参数=0),而 L2 正则不会出现很多参数为0的情况?

L1正则化和L2正则化面试常考题
把W的解限制在黑色区域内,同时使得经验风险尽可能小,因此取交点就是最优解,从图中可以看出,因为L1正则黑色区域是有棱角的,所以更容易在棱角取得交点,从而导致出现参数为0的情况

参考文章
参考文章1
参考文章2
参考文章3

相关文章:

  • 2021-04-27
  • 2021-11-15
  • 2021-07-21
  • 2021-12-19
  • 2021-05-01
猜你喜欢
  • 2021-07-20
  • 2021-05-21
  • 2021-07-17
相关资源
相似解决方案