本文摘自《概率论和数理统计》 陈希孺著 中国科学技术大学出版社
协方差和相关系数
现在我们来考虑多维随机向量的数字特征。以二维的情况为例,设(X,Y)为二维随机向量。X,Y本身都是一维随机变量,可以定义为其均值、方差,在本文中我们记
E(X)=m1,E(Y)=m2,Var(X)=σ21,Var(Y)=σ22
协方差定义
我们称E[(X−m1)(Y−m2)]为X,Y的协方差,并记为Cov(X,Y)∗。
“协”即“协同”的意思。X的方差是X−m1与X−m1的乘积的期望,如今把一个X−m1换为Y−m2,其形式接近方差,又有X,Y二者的参与,由此得出协方差的名称。由定义看出,Cov(X,Y)与X,Y的次序无关,即Cov(X,Y)=Cov(Y,X)。可直接由定义得到协方差的一些简单性质。例如,若c1,c2,c3,c4都是常数,则,
Cov(c1X+c2,c3Y+c4)=c1c3Cov(X,Y)公式(1)
又易知:
Cov(X,Y)=E(XY)−m1m2公式(2)
这些简单的证明就不在这里证明了。
协方差的重要性质
定理1
- 若X,Y独立,则Cov(X,Y)=0
-
[Cov(X,Y)]2≤σ21σ22。等号成立仅当X,Y之间有严格的线性关系(即存在常熟a,b,使得Y=a+bX)时成立。
证明1
因为当X,Y独立的时候,E(XY)=m1m2,且Cov(X,Y)=E(XY)−m1m2,故Cov(XY)=m1m2−m1m2=0。
证明2
预备小知识:
- 若a,b,c为常数,a>0,而二次三项式at2+2bt+c对t任何实值都非负,则必有ac≥b2。(二次函数没有实根 )
- 如果随机变量Z只能够非负值,而E(Z)=0,则Z=0。
证明小知识1:注意到若ac<b2,则at2+2bt+c=0有两个不同的实根t1<t2,因而at2+2bt+c=a(t−t1)(t−t2)。取t0使t1<t0<t2,则有at20+2bt0+c=a(t−t0)(t0−t2)<0,与at2+2bt+c对任何t非负矛盾。这就证明了小知识的第一点。
证明小知识2:若Z≠0,则因Z只能取非负值,它必以一定的大于0的概率取大于0的值,这将导致E(Z)>0,与E(Z)=0的假定不符合。
现考虑:
E[t(X−m1)+(Y−m2)]2=σ21t2+2Cov(X,Y)t+σ22 公式(3)
由于此等式左边是一个非负随机变量的均值,故它对任何t非负。按预备知识1,有
σ21σ22≥[Cov(X,Y)]2公式(4)
进一步,如果公式(4)等号成立,则公式(3)右边等于(σ1t±σ2)2。±号视Cov(X,Y)>0或<0而定,为确定符合,暂设Cov(X,Y)>0,则公式(3)右边为(σ1t+σ2)2。此式在t=t0=−σ2/σ1时为0。以t=t0带入公式(3),有:
E[t0(X−m1)+(Y−m2)]2=0
再按预备知识2,即知t0(X−m1)+(Y−m2)=0,因而X,Y之间有严格线性关系。
反之,若X,Y之间有严格线性关系Y=aX+b,则
σ22=Var(Y)=Var(aX+b)=Var(aX)=a2Var(X)=a2σ21,
且
m2=E(Y)=aE(X)+b=am1+b,
因而有
Y−m2=(aX+b)−(am1+b)=a(X−m1)。
于是
Cov(X,Y)=E[(X−m1)a(X−m1)]=a[E(X−m1)]=aσ21
因此,
[Cov(X,Y)]2=a2σ4=σ21(a2σ2)=σ21σ22
即公式(4)等号成立,这就证明了定理1中第2个知识点的全部结论。
相关系数定义
定义:我们把Cov(X,Y)σ1σ2称为X,Y的相关系数,并记为Corr(X,Y)∗。
形式上可以把相关系数视为“标准尺度下的协方差”。变量X,Y的协方差作为(X−m1)(Y−m2)的均值,依赖于X,Y的度量单位,选择适当单位使X,Y的方差都为1,这协方差就是相关系数。这样就能更好地反应X,Y之间的关系,不受单位影响。
定理
- 若X,Y独立,则Corr(X,Y)=0。
-
−1≤Corr(X,Y)≤1,或∣Corr(X,Y)∣≤1,等号当且仅当X和Y有严格的线性关系时能达到。
相关解释:
第一条
当Corr(X,Y)=0,(或Cov(X,Y)=0 一样)时,称“X,Y不相关”。本定理1说明由X,Y的独立性推出他们的不相关。但反过来一般不成立:由Corr(X,Y)=0不一定有X,Y独立。下面是一个简单的例子。
例子:
设(X,Y)服从单位圆内的均匀分布,即其密度函数为:
f(x,y)=⎧⎩⎨⎪⎪π−1 ,0 ,当x2+y2<1时当x2+y2≥1时
由于x,y是对称的,故他们拥有相同的概率密度函数。概率密度函数的求法请往下找,这里为了排版美观将其内容放在下方。由于X,Y拥有相同的边缘密度函数,所以我们只求一个就可以了:
g(x)=∫1−x2√−1−x2√f(x,y)dy=∫1−x2√−1−x2√π−1dy={2π−11−x2‾‾‾‾‾‾‾√ ,0 , 当∣x∣<1时当∣x∣≥1时
这个函数关于0对称,因此其均值为0,故E(X)=E(Y)=0。而
Cov(X,Y)=E(XY)−m1m2=E(XY)=1π∬xydxdyx2+y2<1 =0
故Corr(X,Y)=0。但X,Y不独立,因为联合密度f(x,y)不等于其边缘密度之积g(x)g(y)。
第二条
相关系数也常称为“线性相关系数”。这是因为,实际上相关系数并不是刻画了X,Y之间“一般”关系的程度,而只是“线性关系的程度。这种说法的根据之一就在于,当且仅当X,Y具有严格的线性关系时,才有∣Corr(X,Y)∣达到最大值1.可以容易举出例子说明:即使X与Y有某种严格的函数关系但非线性关系,∣Corr(X,Y)∣不仅不为1,还可以为0.
例子:
设X∼R(−12,12),即区间[−12,12]内均匀分布,而Y=cosX,Y与X有严格的函数关系。但因E(X)=0,得到:
Cov(X,Y)=E(XY)−m1m2=E(XY)=E(XcosX)=∫1/2−1/2xcosxdx=0
故,Corr(X,Y)=0。虽然求出来的相关系数为0,也就是所谓的“不相关”,它们之间确有着严格的关系Y=cosX。足见这样的相关只能指线性而言,一超出了这个范围,这个概念就失去了意义。
第三条
如果0<∣Corr(X,Y)∣<1,则解释为:X,Y之间有“一定程度的”线性关系而非严格的线性关系。何谓“一定程度”的线性关系?我们可以用下面的图来说明一下。在这三幅图中,我们都假定(X,Y)服从所画区域A内的均匀分布(即联合概率密度f(x,y)在A内为∣A∣−1,在A外为0,∣A∣为区域A的面积)。在这三张图中,X,Y都没有严格的线性关系,因为由X的值不能决定Y的值。可是,由这几个图我们都能“感觉”出,X,Y之间存在着一种线性的“趋势”。这种趋势,在图(a)中已较显著且是正向的(X增加Y倾向于增加),这相应于Corr(X,Y)大比较显著地大于0。在(b)中,这种线性趋势比(a)更明显,程度更大,反映∣Corr(X,Y)∣比(a)的情况更大,但为负向的。至于(c),则多少有一点线性倾向,但已经很微弱,所以Corr(X,Y)虽然大于0,但是很接近0。

边缘密度函数
概率密度函数的求法如下:设X=(X1,⋯,Xn)有概率密度函数f(x1,⋯,xn),为求分量Xi的概率密度函数,只需要把f(x1,⋯,xn)中的xi固定,然后对x1,⋯,xi−1,xi+1,⋯,xn在−∞到+∞之间做定积分。例如,X1的概率密度函数为:
f1(x1)=∫+∞−∞⋯∫+∞−∞f(x1,x2,⋯,xn)dx2⋯dxn