机器学习（六）——局部加权线性回归（Locally weighted linear regression）

原文：http://cs229.stanford.edu/notes/cs229-notes1.pdf

考虑从x∈R中预测y的问题。下面最左边的图显示了将机器学习（六）——局部加权线性回归（Locally weighted linear regression）拟合到数据集的结果。我们看到数据并不是直线上的，所以拟合不是很好。

取代原来的方法，如果我们加上一个额外的特征 x2x2，并用 y=θ0+θ1x+θ2x2y=θ0+θ1x+θ2x2 来拟合数据，你会发现效果稍微好了那么一点（看中间这幅图片）。似乎可以天真地认为，我们添加的特征越多越好。然而，添加的特征太多也是很危险的：最右边的图像是使用一个五次多项式 y=∑5j=0θjxjy=∑j=05θjxj 来拟合数据的结果。我们看到，即使拟合曲线完美地穿过数据，我们也无法确定这就是一个相当好的预测，能够针对不同生活地区 (x)(x) 来预测房价 (y)(y) 。在还没有正式地定义这些术语之前，我们可以说最左侧的图像展示的是一种欠拟合（underfitting）的实例 —— 很明显看出模型未能捕获到数据的结构 —— 最右侧的图像展示的是一种过拟合（overfitting）的实例。（在这节课的后面部分，当我们谈到学习理论的时候，我们将把这些概念形式化，并更仔细地去定义一个假设是好的还是坏的。）

正如上面所看到的，特征的选取方式能够决定学习算法表现性能的好坏。（当我们谈到模型选择时，我们也会见到一些算法能够自动选择一些好的特征。）在这一小节，让我们简要地谈一谈关于局部加权线性回归（LWR）算法的内容，假设我们有足够数量的训练集，使得对于特征的选择不是那么重要。这一部分将会很短，因为你将要在你的作业中去探索关于LWR算法的一些属性。

在原始版本的线性回归算法中，要对一个查询点 xx 进行预测，比如要评估 h(x)h(x) ，要经过下面的步骤：

拟合 θθ 来最小化 ∑i(y(i)−θTx(i))2∑i(y(i)−θTx(i))2
输出θTxθTx

相比之下，局部加权线性回归算法做的是：

拟合 θθ 来最小化 ∑iw(i)(y(i)−θTx(i))2∑iw(i)(y(i)−θTx(i))2
输出θTxθTx

此处的 w(i)w(i) 是非负的权重（weights）值。直观看来，如果对于某个特定的 ii ，它的 w(i)w(i) 很大，那么在选择 θθ的时候，我们将会尽可能地使 (y(i)−θTx(i))2(y(i)−θTx(i))2 更小。如果w(i)w(i) 很小，那么在拟合的过程中 (y(i)−θTx(i))2(y(i)−θTx(i))2 误差项就能够大大地忽略。

对于权值的选取可以使用下面这个比较标准的公式：

w(i)=exp(−(x(i)−x)22τ2)w(i)=exp⁡(−(x(i)−x)22τ2)

（如果 xx 是向量值，上面的式子需要写成广义形式，即 w(i)=exp(−(x(i)−x)T(x(i)−x)/2τ2)w(i)=exp⁡(−(x(i)−x)T(x(i)−x)/2τ2)，并根据情况选择 ττ 或者 ∑∑。)

注意，权重取决于特定的点 xx，而我们又尝试去预测 xx。此外，如果 ∣x(i)−x∣∣x(i)−x∣ 很小，那么 w(i)w(i) 将接近 1；如果 ∣x(i)−x∣∣x(i)−x∣ 很大，那么 w(i)w(i) 将非常小。其直观意义就是越是靠近预测点的样本点，它们对预测点的影响就应该越大，越是远离预测点的样本点，它们对预测点的影响就越小，也就是说局部加权线性回归模型只关注于预测点附近的点（这就是局部的含义），而不考虑其他远离预测点的样本点。（注意，权值公式看上去类似于高斯分布的密度，但 w(i)w(i) 和高斯分布没有任何关系，尤其注意 w(i)w(i) 不是随机变量、正态分布或者其它。）参数 ττ 控制了训练样本的权值根据样本点 x(i)x(i) 到查询点 xx 的距离下降的有多快；参数 ττ 被成为带宽（bandwidth）参数。

机器学习（六）——局部加权线性回归（Locally weighted linear regression）

参考最小二乘法，推导一下计算过程：

机器学习（六）——局部加权线性回归（Locally weighted linear regression）

J(θ)J(θ)对 θθ 求导与上面步骤类似，得到结果为：

令导数为零，整理可得：

其中，WW 是 m×mm×m 维的对角矩阵，对角线依次存放 w(i)w(i) .

局部加权线性回归是我们接触的第一个非参数（non-parametric）算法。之前学习的（不带权）线性回归算法是有参数（parametric）算法，因为它有固定的有限数量的，能够很好拟合数据的参数（θθ）。一旦我们拟合出 θθ 并存储了下来，也就不需要再保留训练数据样本来进行更进一步的预测了。相比而言，用局部加权线性回归做预测，我们需要保留整个的训练数据，每次预测得到不同的参数 θθ ，即参数不是固定的。术语 “非参数” 粗略意味着：我们需要保留用来代表假设 hh 的内容，随着训练集的规模变化是呈线性增长的。

对于机器学习（六）——局部加权线性回归（Locally weighted linear regression）的详细的推导过程如下：

机器学习（六）——局部加权线性回归（Locally weighted linear regression）