特征选择L1正则化与过拟合L2正则化。

我们将属性称为特征，针对各种特定的学习任务，特征的重要程度不同，对当前任务有用的属性称为“相关特征”，没什么用的属性称为“无关特征”，从给定的特征集合中选择出相关特征子集的过程，就是特征选择。

特征选择：过滤式选择，包裹式选择，嵌入式选择。

其中嵌入式选择：是将特征选择过程与学习器训练过程融为一体。即在训练的同事自动进行了特征选择。

对于过拟合问题，我们经常引入正则化项，L1，L2正则化都有助于降低过拟合风险。（L0：向量内所有非零元素的个数之和。）

带L1 正则化的损失函数：特征选择L1正则化与过拟合L2正则化。

带L2正则化的损失函数：特征选择L1正则化与过拟合L2正则化。

但是

1）L1会有额外的好处：L1比L2更容易获得“稀疏”解，即它求得的w（特征的权重）会有更少的非零分量。换言之，L1正则化的学习方法就是一种嵌入式的特征选择方法！

2）L1正则化的计算公式不可导，而L2正则化公式可导，因为在优化时需要计算损失函数的偏导数，所以对L2正则化损失函数的优化更加简洁。优化L1正则化的损失函数要更加复杂，而且方法也很多种。

1)的原因解释：

1：之所以L2正则化不会让参数变得稀疏（增加零分量）是因为当参数很小时，比如0.001，这个参数的平方基本上就可以忽略了，所以模型不会进一步将这个参数调整为0。

2：如下两图，图中等值线是J0的等值线，黑色方形是L（令L=α∑w|w|，则J=J0+L，此时我们的任务变成在L约束下求出J0取最小值的解。）函数的图形。在图中，当J0等值线与L图形首次相交的地方就是最优解。

特征选择L1正则化与过拟合L2正则化。