欠拟合和过拟合

问题

在上一节中,我们利用多项式回归获得更加准确的拟合曲线,实现了对训练数据更好的拟合。然而,我们也发现,过渡地对训练数据拟合也会丢失信息规律。首先,引出两个概念:

  • 欠拟合(underfitting):拟合程度不高,数据距离拟合曲线较远,如下左图所示。

  • 过拟合(overfitting):过度拟合,貌似拟合几乎每一个数据,但是丢失了信息规律,如下右图所示,房价随着房屋面积的增加反而降低了。
    斯坦福机器学习笔记-欠拟合和过拟合

局部加权线性回归(LWR)

为了解决欠拟合和过拟合问题,引入了局部加权线性回归(Locally Weight Regression)。在一般的线性回归算法中,对于某个输入向量 xx ,我们这样预测输出 yy

  1. 修正 θθ 来最小化 i(yiθTx(i))2∑_i(y_i−θ^Tx^{(i)})^2
  2. 进行预测: θTxθ^Tx

而在 LWR 中:

  1. 修正 θθ 来最小化 iw(i)(yiθTx(i))2∑_iw^{(i)}(y_i−θ^Tx^{(i)})^2
  2. 进行预测: θTxθ^Tx

在 LWR 中,我们对一个输入 xx 进行预测时,赋予了 xx 周围点不同的权值,距离 xx 越近,权重越高。整个学习过程中误差将会取决于 xx 周围的误差,而不是整体的误差,这也就是局部一词的由来。

通常, w(i)w^{(i)} 服从高斯分布,在 xx 周围呈指数型衰减:
w(i)=e(x(i)x)22τ2w^{(i)}=e^{-\frac{(x^{(i)}-x)^2}{2τ^2}}

其中, ττ 值越小,则靠近预测点的权重越大,而远离预测点的权重越小。
斯坦福机器学习笔记-欠拟合和过拟合
另外,LWR 属于非参数(non-parametric)学习算法,所谓的非参数学习算法指的是没有明确的参数(比如上述的 θθ 取决于当前要预测的 xx ),每进行一次预测,就需要重新进行训练。而一般的线性回归属于参数(parametric)学习算法,参数在训练后将不再改变。

LWR 补充自机器学习实战一书,后续章节中我们知道,更一般地,我们使用正规化来解决过拟合问题。

相关文章: