机器学习（四）——最小二乘（Least squares）

原文：http://cs229.stanford.edu/notes/cs229-notes1.pdf

借助举证导数的工具，现在让我们继续以封闭的形式找到θ的值，使得J(θ)最小化。我们从用矩阵向量表示法重写J开始。

给定一个训练集，设计矩阵X为mxn矩阵，(实际上是mx（n+1），如果我们包括拦截项)，其中每一行为训练样本的输入值：

另外，让机器学习（四）——最小二乘（Least squares）是包含训练集中所有目标值的m维向量：

机器学习（四）——最小二乘（Least squares）

现在，由于机器学习（四）——最小二乘（Least squares），我们可以很容易的证明：

机器学习（四）——最小二乘（Least squares）

因此，利用一个向量z的的性质，即机器学习（四）——最小二乘（Least squares），我们有

机器学习（四）——最小二乘（Least squares）

下面给出一些矩阵之间的关系，不做证明：

机器学习（四）——最小二乘（Least squares）

最后，为了最小化J，让我们找出它与θ有关的导数。结合方程(2)和(3)，我们发现

机器学习（四）——最小二乘（Least squares）

因此：

机器学习（四）——最小二乘（Least squares）

在上面推导过程的第三步中，我们用到了一个定理，即一个实数的迹是它本身；第四步用到了 trA=trATtrA=trAT 这个定理，最后一项不含 θθ 求导时可舍去；第五步使用了等式 (5) ，令 AT=θ,B=BT=XTX,C=IAT=θ,B=BT=XTX,C=I ，以及等式 (1) ，即 ∇AtrAB=∇AtrBA=BT∇AtrAB=∇AtrBA=BT 。为了最小化 JJ ，我们令导数为0，就得到了它的正规方程（normal equations）：

因此，最小化 J(θ)J(θ) 的 θθ 的闭式解（解析解）如下：

如何使用等式（5），下面给出了说明：

机器学习（四）——最小二乘（Least squares）