本篇笔记将以向量值随机变量X=(X1,,Xn)TX=(X_1,\dots,X_n)^T的协方差矩阵为例,研究其性质。在阅读笔记之前可先记下先导篇中的相关结论,尤其是该篇中任意方向发散程度章节的结论。本篇笔记主要参考借鉴的基础教材是《程序员的数学之概率统计》。

单位矩阵与圆

首先看一种最简单的情况,即协方差矩阵为单位矩阵。此时该矩阵有一个显著特征,即任意方向上的方差都为1。证明过程如下:
V[uTX]=uTV[X]u=uTIu=uTu=uu=u2=1\mathrm{V}\left[\boldsymbol{u}^{T} \boldsymbol{X}\right]=\boldsymbol{u}^{T} \mathrm{V}[\boldsymbol{X}] \boldsymbol{u}=\boldsymbol{u}^{T} I \boldsymbol{u}=\boldsymbol{u}^{T} \boldsymbol{u}=\boldsymbol{u} \cdot \boldsymbol{u}=\|\boldsymbol{u}\|^{2}=1
其原理可参考先导篇中的结论。
也就是说,上式其实表示任意方向上的标准偏差为1,从偏差的角度说,所有方向情况都一致,那这就符合圆的定义,用圆表现V[X]如下:
协方差矩阵的几何性质
要注意的是,这个圆不能覆盖大部分可取的值,圆的半径只是标准差的大小,是一种偏差的平均情况。
只要协方差矩阵是单位阵,当协方差矩阵为2维的时候可以用上图的圆来表示,3维的时候可以用球体表示,n维的时候就是n维超球体。

对角矩阵与椭圆

上面讨论了协方差矩阵是单位阵的情况,那么去掉这么强的限制,换成一个相对弱一些的限制,如果协方差矩阵是对角阵时情况如何呢?其数学表述如下
V[X]=diag(v1,v2,,vn)=(v1v2vn)\mathrm{V}[\boldsymbol{X}]=\operatorname{diag}\left(v_{1}, v_{2}, \cdots, v_{n}\right)=\left(\begin{array}{cccc} v_{1} & & & \\ & v_{2} & & \\ & & \ddots & \\ & & & v_{n} \end{array}\right)
可以基于之前在单位矩阵下得到的结论采取如下步骤处理:

  • 先对X做一定变换,使其协方差矩阵变为一个单位阵
  • 在变换后得到的空间中绘制圆(或球体超球体)
  • 分析逆变换之后的图像

首先进行变换,如何将协方差矩阵变为单位阵?只需要给随机变量除以一个标准差即可。从空间变换的角度来看,相当于沿着各个坐标轴进行缩放变换,第i轴是原来的1Vi\frac{1}{\sqrt {V_i} }倍。
之后画基准圆,之后对图像进行逆变换,分析最终得到的图像。
逆变换也就是将第i轴变为之前的Vi\sqrt {V_i}倍。于是圆变成了椭圆。示意图如下
协方差矩阵的几何性质
所以协方差矩阵是对角阵的时候,可以将其理解为一个椭圆。由椭圆投影的长度即可推得该方向上的标准差。示意图入下:
协方差矩阵的几何性质

一般矩阵与倾斜的椭圆

接下来就去掉上面所有的强限制(单位阵对角阵),讨论当协方差矩阵为一般矩阵时的情况了。
和上部分的思路一样,对于一般矩阵,找到方法将其对角化,就可以把问题引到熟悉的结论上来了。探究一般协方差矩阵的几何意义的思路如下:

  • 首先将一般协方差阵变换为对角阵
  • 在变换后的空间中绘制简图
  • 分析逆变换之后的图像

所以问题的关键在于能否将矩阵变为对角阵。这个问题的答案是可以,因为协方差矩阵是对称阵,对称阵的性质中最关键的一条就是,必然存在标准正交矩阵Q,使得对称阵H成为对角阵QTHQQ^THQ
先梳理一下基本知识,对于取值确定的矩阵A(常量),经过W=AX变换后,协方差矩阵将变换为V[W]=AV[X]ATV[W]=AV[X]A^T。只要找到合适的变换矩阵A使得V[W]是一个对角阵即可。这里A必须是正规矩阵,如果不是的话那就无法进行逆变换,也就无法还原至原本X的情况了。正规矩阵性质解释如下(摘自百度百科):
协方差矩阵的几何性质
综上,只要求解得A,也就是那个标准正交矩阵Q,就可以将协方差矩阵对角化了,而因为Q满足QTHQ=ΛQ^THQ=\Lambda,这里Λ\Lambda是对角阵,又因为Q是标准正交阵满足QTQ=QQT=IQ^TQ=QQ^T=I,导致QTHQ=ΛQ^THQ=\LambdaHQ=QΛHQ=Q\Lambda等价,所以根据线性代数特征值特征向量的知识,Q的各个列向量qiq_i就是H的特征向量,对角阵的每个元素λi\lambda_i就是qiq_i的特征值。
所以可以通过以下方式得到所需的变换

  • 先求出给定对称矩阵V的特征值λ1,,λn\lambda_1,\dots,\lambda_n
  • 求出各个特征值的特征向量qiq_i,这里就得到了Q的每一列了
  • 将特征向量的长度化为1,就是除以自身的模
  • 横向排列所有的特征向量(列向量)得到矩阵Q

A=QTA=Q^T,即可得到作用于X的矩阵A,使得X的协方差矩阵为对角阵,即V[W]=AV[X]ATV[W]=AV[X]A^T
那么X在几何意义上经过AX之后到底发生了什么样的变换呢?在线性代数中,正交矩阵可以用于表示旋转(或翻转)变换。所以A其实对X进行了如下操作:

  • 通过旋转变换使协方差矩阵变为一个对角阵
  • 根据该对角阵绘制椭圆
  • 逆向旋转

这些操作的示意图如下:
协方差矩阵的几何性质
注意以下几点:

  • 特征向量q1,q2,,qnq_1,q_2,\dots,q_n都与椭圆的主轴同向
  • 特征向量的特征值越大,椭圆在该方向的宽幅就越长
  • 椭圆各主轴的半径不等于特征值,而是特征值的平方根λi\sqrt \lambda_i

所以,协方差矩阵就是椭圆

协方差矩阵局限性

协方差矩阵功能确实很强大,但是它不能体现高阶相关的情况,举一个极端的概率分布图如下图所示,方块代表概率密度。
协方差矩阵的几何性质
也就是说,当X3X_3只和X1X_1X2X_2的联合分布相关时,协方差矩阵是无法观测到这样的相关性的。这个局限性的根源源自:即使检查了所有随机变量对的关系,也不能因此得出所有随机变量之间是否存在相关性的结论。

相关文章:

  • 2021-07-11
猜你喜欢
  • 2021-10-31
  • 2021-12-28
  • 2021-11-13
  • 2021-11-11
相关资源
相似解决方案