斯坦福机器学习笔记-欠拟合和过拟合

欠拟合和过拟合

问题

在上一节中，我们利用多项式回归获得更加准确的拟合曲线，实现了对训练数据更好的拟合。然而，我们也发现，过渡地对训练数据拟合也会丢失信息规律。首先，引出两个概念：

欠拟合（underfitting）：拟合程度不高，数据距离拟合曲线较远，如下左图所示。
过拟合（overfitting）：过度拟合，貌似拟合几乎每一个数据，但是丢失了信息规律，如下右图所示，房价随着房屋面积的增加反而降低了。

局部加权线性回归（LWR）

为了解决欠拟合和过拟合问题，引入了局部加权线性回归（Locally Weight Regression）。在一般的线性回归算法中，对于某个输入向量 $x$ ，我们这样预测输出 $y$ ：

修正 $θ$ 来最小化 $∑_i(y_i−θ^Tx^{(i)})^2$
进行预测： $θ^Tx$

而在 LWR 中：

修正 $θ$ 来最小化 $∑_iw^{(i)}(y_i−θ^Tx^{(i)})^2$
进行预测： $θ^Tx$

在 LWR 中，我们对一个输入 $x$ 进行预测时，赋予了 $x$ 周围点不同的权值，距离 $x$ 越近，权重越高。整个学习过程中误差将会取决于 $x$ 周围的误差，而不是整体的误差，这也就是局部一词的由来。

通常， $w^{(i)}$ 服从高斯分布，在 $x$ 周围呈指数型衰减：
$w^{(i)}=e^{-\frac{(x^{(i)}-x)^2}{2τ^2}}$

其中， $τ$ 值越小，则靠近预测点的权重越大，而远离预测点的权重越小。
斯坦福机器学习笔记-欠拟合和过拟合
另外，LWR 属于非参数（non-parametric）学习算法，所谓的非参数学习算法指的是没有明确的参数（比如上述的 $θ$ 取决于当前要预测的 $x$ ），每进行一次预测，就需要重新进行训练。而一般的线性回归属于参数（parametric）学习算法，参数在训练后将不再改变。

LWR 补充自机器学习实战一书，后续章节中我们知道，更一般地，我们使用正规化来解决过拟合问题。