通过线性回归得到回归参数后,可以通过计算判定系数R2来评估回归函数的拟合优度。判定系数R2定义如下:
R2=SSRSST=1−SSESST
其中,SSR=∑i=1n(ŷ i−y¯i)2,SSE=∑i=1n(yi−ŷ i)2和SST=∑i=1n(yi−y¯)2。R2越接近1,回归函数的拟合优度越大。上式可改写成SST=SSR+SSE,即:
∑i=1n(yi−y¯)2=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2
为了理解R2,我们有必要先回顾一下线性回归的通式:
⎧⎩⎨⎪⎪ŷ i=f(x)=θ0+∑j=1nθjxjiyi=ŷ i+ϵi
其中,yi实际上由ŷ i和ϵi组成,ŷ i随xi变化而变化。令 x0i=1,ŷ i=θ0+∑j=1nθjxji可被改写成ŷ i=θTxi。将上式改写成向量和矩阵的形式:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎡⎣⎢⎢⎢⎢⎢11⋮1x11x12x1mx21x22x2m………xn1xn2xnm⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢θ0θ1⋮θn⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢ŷ 1ŷ 2⋮ŷ m⎤⎦⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢y1y2⋮ym⎤⎦⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢ŷ 1ŷ 2⋮ŷ m⎤⎦⎥⎥⎥⎥+⎡⎣⎢⎢⎢⎢ϵ1ϵ2⋮ϵm⎤⎦⎥⎥⎥⎥
当θ≠0时,Ŷ 是X的一个线性组合,即Ŷ 存在于由X的列向量所展开的列空间中。对于一次幂的线形回归,X的列空间即是一个超平面,Ŷ 是存在于面内的一个向量(即Y在面上的投影)。为了使得残差最小化,ϵ是Y垂直于面方向上的投影。在三维中的几何意义如下图(文中θ即图中β,图中Xi表示列向量,图取自):
因为ϵ垂直于X的列空间,所以ϵ垂直于X的所有列向量,即XTϵ=0。又因ϵ=Y−Xθ,得:
XT(Y−Xθ)=0XTY=XTXθθ=(XTX)−1XTYŶ =Xθ=X(XTX)−1XTY
根据Ŷ =Xθ=X(XTX)−1XTY,我们得到了投影矩阵P=X(XTX)−1XT。Ŷ =PY,投影矩阵P乘以Y得到了Y属于X列空间的分量Ŷ 。投影矩阵有两个性质需要了解:
-
P是对称矩阵;
PT=(X(XTX)−1XT)T=X((XTX)−1)TXT=X((XTX)T)−1XT=X(XTX)−1XT=P
-
P2=P。
P2=PTP=X(XTX)−1XTX(XTX)−1XT=X(XTX)−1XTX(XTX)−1XT=X(XTX)−1XT=P
现在,我们可以开始推导判定系数公示SST=SSR+SSE了。如下(1∈Rm):
SST=∑i=1n(yi−y¯)2=∑i=1n[(yi−ŷ i)+(ŷ i−y¯)]2=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+∑i=1n2(yi−ŷ i)(ŷ i−y¯)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+∑i=1n2(yi−ŷ i)(ŷ i−y¯)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵ(Ŷ −Y¯1)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵ(PY−Y¯1)=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵTŶ −2Y¯ϵT1
因为ϵ垂直于X的列空间,且Ŷ 属于X的列空间,所以ϵTŶ =0;又因为1=x0i∈Rm(1属于X的列空间),所以ϵT1=0。因此:
SST=∑i=1n(ŷ i−y¯i)2+∑i=1n(yi−ŷ i)2+2ϵTŶ −2Y¯ϵT1=SSR+SSE