协方差和相关系数

本文摘自《概率论和数理统计》陈希孺著中国科学技术大学出版社

协方差和相关系数

现在我们来考虑多维随机向量的数字特征。以二维的情况为例，设(X,Y)为二维随机向量。X,Y本身都是一维随机变量，可以定义为其均值、方差，在本文中我们记

E(X)=m1,E(Y)=m2,Var(X)=σ21,Var(Y)=σ22

协方差定义

我们称E[(X−m1)(Y−m2)]为X,Y的协方差，并记为Cov(X,Y)∗。
“协”即“协同”的意思。X的方差是X−m1与X−m1的乘积的期望，如今把一个X−m1换为Y−m2，其形式接近方差，又有X,Y二者的参与，由此得出协方差的名称。由定义看出，Cov(X,Y)与X,Y的次序无关，即Cov(X,Y)=Cov(Y,X)。可直接由定义得到协方差的一些简单性质。例如，若c1,c2,c3,c4都是常数，则，

Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)公式（1）

又易知：

Cov(X,Y)=E(XY)−m1m2公式（2）

这些简单的证明就不在这里证明了。

协方差的重要性质

定理1

若X,Y独立，则Cov(X,Y)=0
[Cov(X,Y)]2≤σ21σ22。等号成立仅当X,Y之间有严格的线性关系（即存在常熟a,b，使得Y=a+bX）时成立。

证明1

因为当X,Y独立的时候，E(XY)=m1m2，且Cov(X,Y)=E(XY)−m1m2，故Cov(XY)=m1m2−m1m2=0。

证明2

预备小知识：

若a,b,c为常数，a>0，而二次三项式at2+2bt+c对t任何实值都非负，则必有ac≥b2。（二次函数没有实根）
如果随机变量Z只能够非负值，而E(Z)=0，则Z=0。

证明小知识1：注意到若ac<b2，则at2+2bt+c=0有两个不同的实根t1<t2，因而at2+2bt+c=a(t−t1)(t−t2)。取t0使t1<t0<t2，则有at20+2bt0+c=a(t−t0)(t0−t2)<0，与at2+2bt+c对任何t非负矛盾。这就证明了小知识的第一点。

证明小知识2：若Z≠0，则因Z只能取非负值，它必以一定的大于0的概率取大于0的值，这将导致E(Z)>0，与E(Z)=0的假定不符合。

现考虑：

E[t(X−m1)+(Y−m2)]2=σ21t2+2Cov(X,Y)t+σ22 公式（3）

由于此等式左边是一个非负随机变量的均值，故它对任何t非负。按预备知识1，有

σ21σ22≥[Cov(X,Y)]2公式（4）

进一步，如果公式（4）等号成立，则公式（3）右边等于(σ1t±σ2)2。±号视Cov(X,Y)>0或<0而定，为确定符合，暂设Cov(X,Y)>0，则公式（3）右边为(σ1t+σ2)2。此式在t=t0=−σ2/σ1时为0。以t=t0带入公式（3），有：

E[t0(X−m1)+(Y−m2)]2=0

再按预备知识2，即知t0(X−m1)+(Y−m2)=0，因而X,Y之间有严格线性关系。

反之，若X,Y之间有严格线性关系Y=aX+b，则

σ22=Var(Y)=Var(aX+b)=Var(aX)=a2Var(X)=a2σ21，

且

m2=E(Y)=aE(X)+b=am1+b，

因而有

Y−m2=(aX+b)−(am1+b)=a(X−m1)。

于是

Cov(X,Y)=E[(X−m1)a(X−m1)]=a[E(X−m1)]=aσ21

因此，

[Cov(X,Y)]2=a2σ4=σ21(a2σ2)=σ21σ22

即公式（4）等号成立，这就证明了定理1中第2个知识点的全部结论。

定理

若X,Y独立，则Corr(X,Y)=0。
−1≤Corr(X,Y)≤1，或∣Corr(X,Y)∣≤1，等号当且仅当X和Y有严格的线性关系时能达到。

相关解释：

第一条

当Corr(X,Y)=0，（或Cov(X,Y)=0 一样）时，称“X,Y不相关”。本定理1说明由X,Y的独立性推出他们的不相关。但反过来一般不成立：由Corr(X,Y)=0不一定有X,Y独立。下面是一个简单的例子。

例子：

设(X,Y)服从单位圆内的均匀分布，即其密度函数为：

f (x, y) = ⎧ ⎩ ⎨ ⎪ ⎪ π - 1, 0, 当 x 2 + y 2 < 1 时 当 x 2 + y 2 \geq 1 时

由于x,y是对称的，故他们拥有相同的概率密度函数。概率密度函数的求法请往下找，这里为了排版美观将其内容放在下方。由于X,Y拥有相同的边缘密度函数，所以我们只求一个就可以了：

g (x) = \int 1 - x 2 \sqrt - 1 - x 2 \sqrt f (x, y) d y = \int 1 - x 2 \sqrt - 1 - x 2 \sqrt π - 1 d y = {2 π - 1 1 - x 2 ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt, 0, 当 ∣ x ∣ < 1 时 当 ∣ x ∣ \geq 1 时

这个函数关于0对称，因此其均值为0，故E(X)=E(Y)=0。而

Cov(X,Y)=E(XY)−m1m2=E(XY)=1π∬xydxdyx2+y2<1 =0

故Corr(X,Y)=0。但X,Y不独立，因为联合密度f(x,y)不等于其边缘密度之积g(x)g(y)。

第二条

相关系数也常称为“线性相关系数”。这是因为，实际上相关系数并不是刻画了X,Y之间“一般”关系的程度，而只是“线性关系的程度。这种说法的根据之一就在于，当且仅当X,Y具有严格的线性关系时，才有∣Corr(X,Y)∣达到最大值1.可以容易举出例子说明：即使X与Y有某种严格的函数关系但非线性关系，∣Corr(X,Y)∣不仅不为1，还可以为0.

例子：

设X∼R(−12,12)，即区间[−12,12]内均匀分布，而Y=cosX，Y与X有严格的函数关系。但因E(X)=0，得到：

Cov(X,Y)=E(XY)−m1m2=E(XY)=E(XcosX)=∫1/2−1/2xcosxdx=0

故，Corr(X,Y)=0。虽然求出来的相关系数为0，也就是所谓的“不相关”，它们之间确有着严格的关系Y=cosX。足见这样的相关只能指线性而言，一超出了这个范围，这个概念就失去了意义。

第三条

如果0<∣Corr(X,Y)∣<1，则解释为：X,Y之间有“一定程度的”线性关系而非严格的线性关系。何谓“一定程度”的线性关系？我们可以用下面的图来说明一下。在这三幅图中，我们都假定(X,Y)服从所画区域A内的均匀分布（即联合概率密度f(x,y)在A内为∣A∣−1，在A外为0，∣A∣为区域A的面积）。在这三张图中，X,Y都没有严格的线性关系，因为由X的值不能决定Y的值。可是，由这几个图我们都能“感觉”出，X,Y之间存在着一种线性的“趋势”。这种趋势，在图（a）中已较显著且是正向的（X增加Y倾向于增加），这相应于Corr(X,Y)大比较显著地大于0。在（b）中，这种线性趋势比（a）更明显，程度更大，反映∣Corr(X,Y)∣比（a）的情况更大，但为负向的。至于（c），则多少有一点线性倾向，但已经很微弱，所以Corr(X,Y)虽然大于0，但是很接近0。

协方差和相关系数

边缘密度函数

概率密度函数的求法如下：设X=(X1,⋯,Xn)有概率密度函数f(x1,⋯,xn)，为求分量Xi的概率密度函数，只需要把f(x1,⋯,xn)中的xi固定，然后对x1,⋯,xi−1,xi+1,⋯,xn在−∞到+∞之间做定积分。例如，X1的概率密度函数为：

f1(x1)=∫+∞−∞⋯∫+∞−∞f(x1,x2,⋯,xn)dx2⋯dxn