左下图我们可以看到,在房价问题中,用一个二次函数来拟合数据 ,该模型对数据有很好的拟合。 然在右图中,如果我们用一个更高次的 项式去拟合数据, 我们可能得到一个曲线,能非常好地拟合训练集 ,但是会出现过拟合现象,不能很好的泛化新样本。
为什么会这样呢?
从左右图对比可以看出,正是那些高次项导致了过拟合的产生,所以如果我们能让这些高次项的系数接近于 0 的话,我们就能很好的拟合了。
所以我们要做的就是在一定程度上减小这些参数θ的值,这就是正则化的基本方法。我们决定要减少θ3和θ4的大小,我们要做的便是修改代价函数,在其中θ3和θ4设置一点惩罚。
现在对我们的代价函数做一些修改,加入惩罚项。
原代价函数:
加入惩罚项后的代价函数: