多元线性回归通式定义如下:

ŷ i=f(x)=θ0+j=1nθjxjiyi=ŷ i+ϵi

其中θ0为偏置项,xji为第i条数据的第j项特征值,θj为第j项特征的权重,ŷ i为第i条数据xi的预测值,yi为第i条数据xi对应的实际值,ϵi为预测值ŷ i与实际值yi之间的残差。

x0i=1ŷ i=θ0+j=1nθjxji可被改写成ŷ i=θTxi

假设每条数据xi相互独立且同分布,残差项ϵi符合标准正态分布。残差项的概率密度函数如下:

p(ϵi)=12πσexp(ϵ2i2σ2)=12πσexp((yiθTxi)22σ2)


多元线性回归推导 — Multi-Variable Linear Regression Derivation

我们的目的是最小化|ϵi|,而p(ϵi)ϵi值趋近μ=0时取得最大值,如上图。因此,已知xiyi,我们可以使用最大似然估计来得到θ

L(θ)=i=1mp(yi|xi;θ)=i=1m12πσexp((yiθTxi)22σ2)

L(θ)取对数,得到logL(θ),连乘变成了累加,消掉了指数幂,减少了函数的复杂度。并且,L(θ)logL(θ)具有相同的变化趋势。因此,求L(θ)取得最大值时θ的取值等同于求logL(θ)取得最大值时θ的取值。
logL(θ)=i=1mlog(12πσexp((yiθTxi)22σ2))=i=1m(log12πσ(yiθTxi)22σ2)=i=1mlog12πσi=1m(yiθTxi)22σ2

由于i=1mlog12πσ2σ2是常量, i=1m(yiθTxi)2取得最小值时,logL(θ)取得最大值。

于是,我们得到了最小二乘法函数

J(θ)=i=1m(yiθTxi)2

J(θ)在其偏微分取值为零时取得最小值。因此,我们对J(θ)偏微分,求其取值为零时θ的值。
Jθ=Jθ=[Jθ0Jθ1Jθn]T=0

我们以Jθ0为例:
Jθ0=θ0i=1m(yiθTxi)2=θ0[(y1θTx1)2+(y2θTx2)2++(ymθTxm)2]=θ0[(y1j=1nθjxj1)2+(y2j=1nθjxj2)2++(ymj=1nθjxjm)2]=2(y1j=1nθjxj1)(x01)+2(y2j=1nθjxj2)(x02)++2(ymj=1nθjxjm)(x0m)=2[y1j=1nθjxj1y2j=1nθjxj2ymj=1nθjxjm][x01x02x0m]T=2[y1θTx1y2θTx2ymθTxm][x01x02x0m]T

同理,我们可以求得Jθ1Jθn的偏微分:
Jθ0=2[y1θTx1y2θTx2ymθTxm][x01x02x0m]TJθ1=2[y1θTx1y2θTx2ymθTxm][x11x12x1m]TJθn=2[y1θTx1y2θTx2ymθTxm][xn1xn2xnm]T

将其改写成矩阵的形式:
Jθ=Jθ=Jθ0Jθ1Jθn=2[yiθTx1y2θTx2ymθTxm]x01x02x0mx11x12x1mxn1xn2xnm=2([y1y2ym][θTx1θTx2θTxm])X=2(YTθT[x1x2xm])X=2(YTθTXT)X

Jθ=2(YTθTXT)X=0,得到:
YTX=θTXTXθT=YTX(XTX)1=YTXX1(XT)1=YT(XT)1=YT(X1)Tθ=(θT)T=X1Y

因此,当θ=X1Y时,ŷ i=θTxi能最好地描述XY之间的线形相关性。

然而,现实中的数据并非都能通过求偏导来求极值。例如:z=y2x2。如下图,当zy=0;zx=0时,y=0;x=0(鞍点)却非极值点。因此,实际中多采用梯度下降法或牛顿法来求得目标函数极值的近似解。通过线性回归得到回归参数后,可以通过计算判定系数R2来评估回归函数的拟合优度。


多元线性回归推导 — Multi-Variable Linear Regression Derivation

相关文章: