背景
在多元线性回归里面,我们得到了一个最小二乘法的公式。在机器学习里面,我们更喜欢把公式转化为矩阵的形式。
今天,老师给我们出了一道题目,说:请把最小二乘法从公式到矩阵的推导过程写出来。
我推到了两天,都没推导出来。hahhaha~,我当时就没有理解到老师的意思。她说的推导和我理解的推导,然而不完全一样。
那么,下面就来说说。最小二乘法从公式到矩阵的演变过程(简单版)。
公式了解
最小二乘法(leastsquaremethod):
求和形式:
(w∗,b∗)=argmin(w,b)∑i=1m(f(xi)−yi)2=argmin(w,b)∑i=1m(yi−wxi−b)2
矩阵形式:
ŵ∗=argmin(y−Xŵ)T(y−Xŵ)
参数详解:
| 参数 |
行列 |
具体形式 |
|
X
|
X∈Rm×(d+1)m行,d+1列
|
⎛⎝⎜⎜⎜⎜ x11x21...xm1x12x22...xm2............x1dx2d...xmd11...1⎞⎠⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜xT1xT2...xTm11...1⎞⎠⎟⎟⎟⎟
|
|
y
|
yi∈Rm×1m行,1列代表每个样本的标签
|
⎛⎝⎜⎜⎜⎜y1y2...ym⎞⎠⎟⎟⎟⎟
|
|
xi
|
xi∈Rd×1以西瓜书为例,一个xi就是一个西瓜样本,这个样本包括了色泽、根底、敲声等等
|
⎛⎝⎜⎜⎜⎜x1x2...xd⎞⎠⎟⎟⎟⎟
|
|
w
|
w∈Rd×1w和b吸收入向量形式ŵ=(w;b)
|
⎛⎝⎜⎜⎜⎜⎜w1w2...wdb⎞⎠⎟⎟⎟⎟⎟
|
开始推导
(y−Xŵ)T(y−Xŵ)
推导分析:
(y−Xŵ)中,
y是一个m×1的列矩阵。
X是一个m×(d+1)的矩阵,而ŵ是一个(d+1)×1的矩阵。
那么,Xŵ根据矩阵相乘的知识,结果是一个m×1的列矩阵。
y是一个列矩阵,Xŵ也是一个列矩阵,根据矩阵减法,得到的结果也是一个列矩阵。
(y−Xŵ)T中,
推导过程和上面一样,但是最后结果还要转置一下。
也就是说,最后是一个1×m行矩阵
那么,根据矩阵乘法,一个行矩阵乘上一个列矩阵,为一个常数。
m×1矩阵和m×1矩阵相乘,结果为一个1×1的矩阵,即一个常数
(y−Xŵ)T(y−Xŵ)即为常数。


总结
老师是从矩阵的角度,去判断求和公式和矩阵公式之间的关系。
我当时还拆开一个一个代进去算,其实拆开也可以。
不过没必要,主要证明矩阵公式和求和公式是有这么一个过程可以推导就足够了。