原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf
借助举证导数的工具,现在让我们继续以封闭的形式找到θ的值,使得J(θ)最小化。我们从用矩阵向量表示法重写J开始。
给定一个训练集,设计矩阵X为mxn矩阵,(实际上是mx(n+1),如果我们包括拦截项),其中每一行为训练样本的输入值:
另外,让是包含训练集中所有目标值的m维向量:
现在,由于,我们可以很容易的证明:
因此,利用一个向量z的的性质,即,我们有
下面给出一些矩阵之间的关系,不做证明:
最后,为了最小化J,让我们找出它与θ有关的导数。结合方程(2)和(3),我们发现
因此:
在上面推导过程的第三步中,我们用到了一个定理,即一个实数的迹是它本身;第四步用到了 trA=trATtrA=trAT 这个定理,最后一项不含 θθ 求导时可舍去;第五步使用了等式 (5) ,令 AT=θ,B=BT=XTX,C=IAT=θ,B=BT=XTX,C=I ,以及等式 (1) ,即 ∇AtrAB=∇AtrBA=BT∇AtrAB=∇AtrBA=BT 。为了最小化 JJ ,我们令导数为0,就得到了它的 正规方程(normal equations) :
因此,最小化 J(θ)J(θ) 的 θθ 的闭式解(解析解)如下:
如何使用等式(5),下面给出了说明: