原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

借助举证导数的工具,现在让我们继续以封闭的形式找到θ的值,使得J(θ)最小化。我们从用矩阵向量表示法重写J开始。

给定一个训练集,设计矩阵X为mxn矩阵,(实际上是mx(n+1),如果我们包括拦截项),其中每一行为训练样本的输入值:

机器学习(四)——最小二乘(Least squares)

另外,让机器学习(四)——最小二乘(Least squares)是包含训练集中所有目标值的m维向量:

机器学习(四)——最小二乘(Least squares)

现在,由于机器学习(四)——最小二乘(Least squares),我们可以很容易的证明:

机器学习(四)——最小二乘(Least squares)

因此,利用一个向量z的的性质,即机器学习(四)——最小二乘(Least squares),我们有

机器学习(四)——最小二乘(Least squares)

下面给出一些矩阵之间的关系,不做证明:

机器学习(四)——最小二乘(Least squares)

最后,为了最小化J,让我们找出它与θ有关的导数。结合方程(2)和(3),我们发现

机器学习(四)——最小二乘(Least squares)

因此:

机器学习(四)——最小二乘(Least squares)

在上面推导过程的第三步中,我们用到了一个定理,即一个实数的迹是它本身;第四步用到了 trA=trATtrA=trAT 这个定理,最后一项不含 θθ 求导时可舍去;第五步使用了等式 (5) ,令 AT=θ,B=BT=XTX,C=IAT=θ,B=BT=XTX,C=I ,以及等式 (1) ,即 AtrAB=AtrBA=BT∇AtrAB=∇AtrBA=BT 。为了最小化 JJ ,我们令导数为0,就得到了它的 正规方程(normal equations) :

机器学习(四)——最小二乘(Least squares)

因此,最小化 J(θ)J(θ) 的 θθ 的闭式解(解析解)如下:

机器学习(四)——最小二乘(Least squares)

如何使用等式(5),下面给出了说明:

机器学习(四)——最小二乘(Least squares)


相关文章: