机器学习基础 - [第四章：正则化]（2）带有正则项的代价函数

1、正则化的直观感受

机器学习基础 - [第四章：正则化]（1）过拟合问题一文中我们解释了过拟合的问题，下图右半部分的带有高阶多项式特征的假设函数 $h_{\theta}=\theta_{0}+\theta_{1}x+\theta_{2}x^{2}+\theta_{3}x^{3}+\theta_{4}x^{4}$ 就造成了过拟合问题。
为了解决过拟合，我们可以对高阶特征 $x^{3}$ 和 $x^{4}$ 前面的系数 $\theta_{3}$ 和 $\theta_{4}$ 进行惩罚，使其变得非常小。
具体怎么做呢？可以在代价函数中加入 $1000\theta_{3}^{2}$ 和 $1000\theta_{4}^{2}$ 两项，在最小化代价函数的过程中，由于 $\theta_{3}$ 和 $\theta_{4}$ 前面的系数非常大，为了使代价函数得到最小， $\theta_{3}$ 和 $\theta_{4}$ 都会趋近于0。
机器学习基础 - [第四章：正则化]（2）带有正则项的代价函数

2、正则化的目的

从上面可以看出，正则化的目的是为了减小某些参数的值，从而使假设函数看起来更简单，不容易出现过拟合的问题。
机器学习基础 - [第四章：正则化]（2）带有正则项的代价函数

3、代价函数中加入正则项

前面也提到，正则化的具体做法就是在代价函数中加入一些正则项，以减小某些参数的值（惩罚某些参数），但由于在实际的操作过程中，我并不知道具体应该减小哪些参数的值，所以一般对所有的参数都会进行惩罚，因此就有了下图所示的从1到 $n$ 的正则项 $\lambda\sum_{j=1}^{n}\theta_{j}^{2}$ ，其中， $\lambda$ 称之为正则化参数。
机器学习基础 - [第四章：正则化]（2）带有正则项的代价函数

4、正则化参数的作用

正则化参数是用来控制两个目标的取舍的，第一个目标是对训练集的拟合程度，这部分主要通过代价函数 $J(\theta)$ 的前半部分实现，即 $\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$ ，第二个目标是减小参数的值，这部分则主要通过正则项 $\sum_{j=1}^{n}\theta_{j}^{2}$ 实现， $\lambda$ 负责两项之间的均衡。

当 $\lambda$ 设置太大时，会导致所有的参数都趋向于0，最终使得模型欠拟合；

当 $\lambda$ 设置太小，则起不到惩罚参数的作用，模型还是会过拟合。
机器学习基础 - [第四章：正则化]（2）带有正则项的代价函数