【天池新人赛-工业蒸汽量预测】6.岭回归、Lasso、ElasticNet

【天池新人赛-工业蒸汽量预测】6.岭回归、Lasso、ElasticNet
当用于训练的特征和数据较少时，可能会导致上图左侧的欠拟合情况。
我们希望达到的模型效果是上图中间所示。
当用于训练的特征和数据较多时，可能会导致上图右侧的过拟合情况。

在上图中，为了防止过拟合（上图右侧变为上图中间），就需要对一些变量的系数进行惩罚，使其越小越好。
岭回归（也叫L2正则化），就是防止过拟合的一种方法，其在原始的损失函数中增加了惩罚项 $\lambda$ ，对某些变量的系数 $\theta$ 进行惩罚。岭回归的损失函数如图所示：
岭回归使用场景：只要数据线性相关，使用LinearRegression拟合不佳，需要正则化，可以考虑使用岭回归；如果输入的特征维度很高，或是稀疏线性关系的话，岭回归不太合适，可以考虑使用Lasso回归。

ElasticNet回归综合了L2、L1的情况，其损失函数为：
使用场景：在我们发现用Lasso回归太过(太多特征被稀疏为0),而岭回归也正则化不够(回归系数衰减太慢)的时候，可以考虑使用ElasticNet回归来综合，得到比较好的结果。