线性回归是什么
损失函数
正则化
1. L2正则化 岭回归
- 假设模型的参数为和,之前未加入正则化项的代价函数是,我们的目标便是调整和来使得达到最小;
- 现在加入了L2岭回归正则化项即平方和×,而平方和其实本质上就是上图的红色圆;也就是说,现在我们的目标是调整和来使得以及新加入的正则项达到最小,而上图中,红色圆和蓝色圆的交点,即为我们的目标参数。
- 一个所谓“显而易见”的解释就是:更小的权值,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。如果没有红色圆,参数会向多个蓝色圆的正中心方向趋向,即参数会变大;但是有了红色圆,参数就会变小了。
2. L1正则化 Lasso回归
L1正则化,相交点往往在坐标轴上,该点的横纵坐标值至少一个为0,即求解得到的w非零分量更少,这就是为什么L1更容易获得稀疏解。此外,这也间接地实现了特征选择。L1正则化更容易得到稀疏矩阵。
3. 统计学角度
以上是从画图角度去介绍L1和L2各自特点及区别,现在我们从统计学的角度来解释L1和L2的区别和各自特点:
ElasticNet
在我们发现用Lasso回归太过(太多特征被稀疏为0),而岭回归也正则化的不够(回归系数衰减太慢)的时候,可以考虑使用ElasticNet回归来综合,得到比较好的结果。