欠拟合和过拟合
问题
在上一节中,我们利用多项式回归获得更加准确的拟合曲线,实现了对训练数据更好的拟合。然而,我们也发现,过渡地对训练数据拟合也会丢失信息规律。首先,引出两个概念:
-
欠拟合(underfitting):拟合程度不高,数据距离拟合曲线较远,如下左图所示。
-
过拟合(overfitting):过度拟合,貌似拟合几乎每一个数据,但是丢失了信息规律,如下右图所示,房价随着房屋面积的增加反而降低了。
局部加权线性回归(LWR)
为了解决欠拟合和过拟合问题,引入了局部加权线性回归(Locally Weight Regression)。在一般的线性回归算法中,对于某个输入向量 ,我们这样预测输出 :
- 修正 来最小化
- 进行预测:
而在 LWR 中:
- 修正 来最小化
- 进行预测:
在 LWR 中,我们对一个输入 进行预测时,赋予了 周围点不同的权值,距离 越近,权重越高。整个学习过程中误差将会取决于 周围的误差,而不是整体的误差,这也就是局部一词的由来。
通常, 服从高斯分布,在 周围呈指数型衰减:
其中, 值越小,则靠近预测点的权重越大,而远离预测点的权重越小。
另外,LWR 属于非参数(non-parametric)学习算法,所谓的非参数学习算法指的是没有明确的参数(比如上述的 取决于当前要预测的 ),每进行一次预测,就需要重新进行训练。而一般的线性回归属于参数(parametric)学习算法,参数在训练后将不再改变。
LWR 补充自机器学习实战一书,后续章节中我们知道,更一般地,我们使用正规化来解决过拟合问题。