正则化方法 L1和L2

模型训练是围绕解决模型的欠拟合问题展开的，通过最小化损失函数来减小模型预测值与真实值之间的误差。因为数据集中总会有一些噪声，模型在拟合数据时可能会把噪声也拟合进来，导致模型过拟合。

正则化是对损失函数的一种惩罚，即对损失函数中的某些参数进行限制。一般认为，参数值较小的模型比较简单，能更好地适应不同的数据集，泛化能力更强。正则化中最常用的正则项是L1范数和L2范数。

L1范数是权重向量中各元素的绝对值之和，一般用‖ω‖1表示；
L2范数是权重向量中各元素的平方和然后再求平方根，一般用‖ω‖2表示。假设模型只有两个参数ω1和ω2，则L1范数为‖ω‖1=|ω1|+|ω2|，L2范数为‖ω‖2=.

L1范数和L2范数都可以降低模型过拟合的风险。L1范数是将权值变得更稀疏，可以使权值变为0从而用于特征选择，使模型具有很好的可解释性。L2范数不会使权值变为0，而仅是尽可能地小，进而使每个特征对模型的预测结果仅产生较小的影响。

对于L1范数，我们在参数ω1和ω2确定的平面上，分别画出原始损失函数的等值线和正则项的等值线。椭圆曲线为原始损失函数的等值线，其中正则化方法 L1和L2 点为理想的最优解。图中的方形线为L1正则项等值线，它与原始损失函数等值线的交点即为求得的最优解，可以看到，L1正则项等值线和原始损失函数等值线更容易相交于坐标轴上，从而使L1得到稀疏解。

正则化方法 L1和L2

L2范数的正则项等值线与原始损失函数等值线更容易相交于某个象限中，因此L2范数会使权值更小，而非使其更稀疏。

正则化方法 L1和L2