最小二乘法least square

上研究生的时候接触的第一个Loss function就是least square。最近又研究了一下，做个总结吧。

定义看wiki就够了。公式如下

E(w)=12\sumn=1N{y-xWT}2

其中

我遇到的第一个问题是，这个公式是怎么得到的，motivation是什么。我个人倾向于最大似然这个角度来解释。具体如下：

假设回归或分类模型公式如下：

y=WTx+ϵ

p(y∣X,w,σ)=Πn=1NN(WTx,σ2)

两边同取自然对数，则

ln(p(y∣X,w,σ))=\sumi=1Nln(N(WTx,σ2))

而

故

ln(p(y∣X,w,σ))=-12σ2\sumn=1N{yn-WTxn}2-12ln(2πσ2)

最大似然函数，求解W,

W*=argminW-12σ2\sumn=1N{yn-WTxn}2-12ln(2πσ2)

上式中第二项与

W*=argminW-12σ2\sumn=1N{yn-WTxn}2

把上式中的

求解时，对对数似然函数求偏导（注意矩阵求导的规则）

\sumn=1NynxnT=WT\sumn=1NxnxnT

两边同取矩阵的逆，则有：

如果用

上面的公式称为normal equation。可以求得

最大似然法在一定程度上证明了最小二乘法的合理性，但是事实上在历史上最小二乘的出现早于前者，所以可以从其它的角度思考一下最小二乘的合理性。比如最小二乘的几何意义，这篇文章讲的挺好的，看了之后受益匪浅。

from: http://bucktoothsir.github.io/blog/2015/12/04/leastsquare/