我们将属性称为特征,针对各种特定的学习任务,特征的重要程度不同,对当前任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”,从给定的特征集合中选择出相关特征子集的过程,就是特征选择。
特征选择:过滤式选择,包裹式选择,嵌入式选择。
其中嵌入式选择:是将特征选择过程与学习器训练过程融为一体。即在训练的同事自动进行了特征选择。
对于过拟合问题,我们经常引入正则化项,L1,L2正则化都有助于降低过拟合风险。(L0:向量内所有非零元素的个数之和。)
带L1 正则化的损失函数:
带L2正则化的损失函数:
但是
1)L1会有额外的好处:L1比L2更容易获得“稀疏”解,即它求得的w(特征的权重)会有更少的非零分量。换言之,L1正则化的学习方法就是一种嵌入式的特征选择方法!
2)L1正则化的计算公式不可导,而L2正则化公式可导,因为在优化时需要计算损失函数的偏导数,所以对L2正则化损失函数的优化更加简洁。优化L1正则化的损失函数要更加复杂,而且方法也很多种。
1)的原因解释:
1:之所以L2正则化不会让参数变得稀疏(增加零分量)是因为当参数很小时,比如0.001,这个参数的平方基本上就可以忽略了,所以模型不会进一步将这个参数调整为0。
2:如下两图,图中等值线是J0的等值线,黑色方形是L(令L=α∑w|w|,则J=J0+L,此时我们的任务变成在L约束下求出J0取最小值的解。)函数的图形。在图中,当J0等值线与L图形首次相交的地方就是最优解。