本篇笔记将以向量值随机变量的协方差矩阵为例,研究其性质。在阅读笔记之前可先记下先导篇中的相关结论,尤其是该篇中任意方向发散程度章节的结论。本篇笔记主要参考借鉴的基础教材是《程序员的数学之概率统计》。
单位矩阵与圆
首先看一种最简单的情况,即协方差矩阵为单位矩阵。此时该矩阵有一个显著特征,即任意方向上的方差都为1。证明过程如下:
其原理可参考先导篇中的结论。
也就是说,上式其实表示任意方向上的标准偏差为1,从偏差的角度说,所有方向情况都一致,那这就符合圆的定义,用圆表现V[X]如下:
要注意的是,这个圆不能覆盖大部分可取的值,圆的半径只是标准差的大小,是一种偏差的平均情况。
只要协方差矩阵是单位阵,当协方差矩阵为2维的时候可以用上图的圆来表示,3维的时候可以用球体表示,n维的时候就是n维超球体。
对角矩阵与椭圆
上面讨论了协方差矩阵是单位阵的情况,那么去掉这么强的限制,换成一个相对弱一些的限制,如果协方差矩阵是对角阵时情况如何呢?其数学表述如下
可以基于之前在单位矩阵下得到的结论采取如下步骤处理:
- 先对X做一定变换,使其协方差矩阵变为一个单位阵
- 在变换后得到的空间中绘制圆(或球体超球体)
- 分析逆变换之后的图像
首先进行变换,如何将协方差矩阵变为单位阵?只需要给随机变量除以一个标准差即可。从空间变换的角度来看,相当于沿着各个坐标轴进行缩放变换,第i轴是原来的倍。
之后画基准圆,之后对图像进行逆变换,分析最终得到的图像。
逆变换也就是将第i轴变为之前的倍。于是圆变成了椭圆。示意图如下
所以协方差矩阵是对角阵的时候,可以将其理解为一个椭圆。由椭圆投影的长度即可推得该方向上的标准差。示意图入下:
一般矩阵与倾斜的椭圆
接下来就去掉上面所有的强限制(单位阵对角阵),讨论当协方差矩阵为一般矩阵时的情况了。
和上部分的思路一样,对于一般矩阵,找到方法将其对角化,就可以把问题引到熟悉的结论上来了。探究一般协方差矩阵的几何意义的思路如下:
- 首先将一般协方差阵变换为对角阵
- 在变换后的空间中绘制简图
- 分析逆变换之后的图像
所以问题的关键在于能否将矩阵变为对角阵。这个问题的答案是可以,因为协方差矩阵是对称阵,对称阵的性质中最关键的一条就是,必然存在标准正交矩阵Q,使得对称阵H成为对角阵。
先梳理一下基本知识,对于取值确定的矩阵A(常量),经过W=AX变换后,协方差矩阵将变换为。只要找到合适的变换矩阵A使得V[W]是一个对角阵即可。这里A必须是正规矩阵,如果不是的话那就无法进行逆变换,也就无法还原至原本X的情况了。正规矩阵性质解释如下(摘自百度百科):
综上,只要求解得A,也就是那个标准正交矩阵Q,就可以将协方差矩阵对角化了,而因为Q满足,这里是对角阵,又因为Q是标准正交阵满足,导致与等价,所以根据线性代数特征值特征向量的知识,Q的各个列向量就是H的特征向量,对角阵的每个元素就是的特征值。
所以可以通过以下方式得到所需的变换
- 先求出给定对称矩阵V的特征值
- 求出各个特征值的特征向量,这里就得到了Q的每一列了
- 将特征向量的长度化为1,就是除以自身的模
- 横向排列所有的特征向量(列向量)得到矩阵Q
令,即可得到作用于X的矩阵A,使得X的协方差矩阵为对角阵,即。
那么X在几何意义上经过AX之后到底发生了什么样的变换呢?在线性代数中,正交矩阵可以用于表示旋转(或翻转)变换。所以A其实对X进行了如下操作:
- 通过旋转变换使协方差矩阵变为一个对角阵
- 根据该对角阵绘制椭圆
- 逆向旋转
这些操作的示意图如下:
注意以下几点:
- 特征向量都与椭圆的主轴同向
- 特征向量的特征值越大,椭圆在该方向的宽幅就越长
- 椭圆各主轴的半径不等于特征值,而是特征值的平方根
所以,协方差矩阵就是椭圆。
协方差矩阵局限性
协方差矩阵功能确实很强大,但是它不能体现高阶相关的情况,举一个极端的概率分布图如下图所示,方块代表概率密度。
也就是说,当只和与的联合分布相关时,协方差矩阵是无法观测到这样的相关性的。这个局限性的根源源自:即使检查了所有随机变量对的关系,也不能因此得出所有随机变量之间是否存在相关性的结论。