多元线性回归推导 — Multi-Variable Linear Regression Derivation

多元线性回归通式定义如下：

⎧ ⎩ ⎨ ⎪ ⎪ y ̂ i = f (x) = θ 0 + \sum j = 1 n θ j x j i y i = y ̂ i + ϵ i

其中θ0为偏置项，xji为第i条数据的第j项特征值，θj为第j项特征的权重，ŷ i为第i条数据xi的预测值，yi为第i条数据xi对应的实际值，ϵi为预测值ŷ i与实际值yi之间的残差。

令 x0i=1，ŷ i=θ0+∑j=1nθjxji可被改写成ŷ i=θTxi。

假设每条数据xi相互独立且同分布，残差项ϵi符合标准正态分布。残差项的概率密度函数如下：

p (ϵ i) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ϵ 2 i 2 σ 2) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- (y i - θ T x i) 2 2 σ 2)

我们的目的是最小化|ϵi|，而p(ϵi)在ϵi值趋近μ=0时取得最大值，如上图。因此，已知xi和yi，我们可以使用最大似然估计来得到θ：

L (θ) = \prod i = 1 m p (y i | x i; θ) = \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ exp (- (y i - θ T x i) 2 2 σ 2)

将L(θ)取对数，得到logL(θ)，连乘变成了累加，消掉了指数幂，减少了函数的复杂度。并且，L(θ)与logL(θ)具有相同的变化趋势。因此，求L(θ)取得最大值时θ的取值等同于求logL(θ)取得最大值时θ的取值。

log L (θ) = \sum i = 1 m log (1 2 π ‾ ‾ ‾ \sqrt σ exp (- (y i - θ T x i) 2 2 σ 2)) = \sum i = 1 m (log 1 2 π ‾ ‾ ‾ \sqrt σ - (y i - θ T x i) 2 2 σ 2) = \sum i = 1 m log 1 2 π ‾ ‾ ‾ \sqrt σ - \sum i = 1 m (y i - θ T x i) 2 2 σ 2

由于∑i=1mlog12π√σ和2σ2是常量, ∑i=1m(yi−θTxi)2取得最小值时，logL(θ)取得最大值。

于是，我们得到了最小二乘法函数：

J (θ) = \sum i = 1 m (y i - θ T x i) 2

J(θ)在其偏微分取值为零时取得最小值。因此，我们对J(θ)偏微分，求其取值为零时θ的值。

J θ = \partial J \partial θ = [\partial J \partial θ 0 \partial J \partial θ 1 \dots \partial J \partial θ n] T = 0

我们以∂J∂θ0为例：

\partial J \partial θ 0 = \partial \partial θ 0 \sum i = 1 m (y i - θ T x i) 2 = \partial \partial θ 0 [(y 1 - θ T x 1) 2 + (y 2 - θ T x 2) 2 + \dots + (y m - θ T x m) 2] = \partial \partial θ 0 [(y 1 - \sum j = 1 n θ j x j 1) 2 + (y 2 - \sum j = 1 n θ j x j 2) 2 + \dots + (y m - \sum j = 1 n θ j x j m) 2] = 2 (y 1 - \sum j = 1 n θ j x j 1) (- x 01) + 2 (y 2 - \sum j = 1 n θ j x j 2) (- x 02) + \dots + 2 (y m - \sum j = 1 n θ j x j m) (- x 0 m) = - 2 [y 1 - \sum j = 1 n θ j x j 1 y 2 - \sum j = 1 n θ j x j 2 \dots y m - \sum j = 1 n θ j x j m] [x 01 x 02 \dots x 0 m] T = - 2 [y 1 - θ T x 1 y 2 - θ T x 2 \dots y m - θ T x m] [x 01 x 02 \dots x 0 m] T

同理，我们可以求得∂J∂θ1至∂J∂θn的偏微分：

\partial J \partial θ 0 = - 2 [y 1 - θ T x 1 y 2 - θ T x 2 \dots y m - θ T x m] [x 01 x 02 \dots x 0 m] T \partial J \partial θ 1 = - 2 [y 1 - θ T x 1 y 2 - θ T x 2 \dots y m - θ T x m] [x 11 x 12 \dots x 1 m] T ⋮ \partial J \partial θ n = - 2 [y 1 - θ T x 1 y 2 - θ T x 2 \dots y m - θ T x m] [x n 1 x n 2 \dots x n m] T

将其改写成矩阵的形式：

J θ = \partial J \partial θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial J \partial θ 0 \partial J \partial θ 1 ⋮ \partial J \partial θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = - 2 [y i - θ T x 1 y 2 - θ T x 2 \dots y m - θ T x m] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x 01 x 02 ⋮ x 0 m x 11 x 12 x 1 m \dots \dots \dots x n 1 x n 2 x n m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = - 2 ([y 1 y 2 \dots y m] - [θ T x 1 θ T x 2 \dots θ T x m]) X = - 2 (Y T - θ T [x 1 x 2 \dots x m]) X = - 2 (Y T - θ T X T) X

令Jθ=−2(YT−θTXT)X=0，得到：

Y T X = θ T X T X θ T = Y T X (X T X) - 1 = Y T X X - 1 (X T) - 1 = Y T (X T) - 1 = Y T (X - 1) T θ = (θ T) T = X - 1 Y

因此，当θ=X−1Y时，ŷ i=θTxi能最好地描述X与Y之间的线形相关性。

然而，现实中的数据并非都能通过求偏导来求极值。例如：z=y2−x2。如下图，当∂z∂y=0;∂z∂x=0时，y=0;x=0（鞍点）却非极值点。因此，实际中多采用梯度下降法或牛顿法来求得目标函数极值的近似解。通过线性回归得到回归参数后，可以通过计算判定系数R2来评估回归函数的拟合优度。