协方差矩阵的几何性质

本篇笔记将以向量值随机变量 $X=(X_1,\dots,X_n)^T$ 的协方差矩阵为例，研究其性质。在阅读笔记之前可先记下先导篇中的相关结论，尤其是该篇中任意方向发散程度章节的结论。本篇笔记主要参考借鉴的基础教材是《程序员的数学之概率统计》。

单位矩阵与圆

首先看一种最简单的情况，即协方差矩阵为单位矩阵。此时该矩阵有一个显著特征，即任意方向上的方差都为1。证明过程如下：
$\mathrm{V}\left[\boldsymbol{u}^{T} \boldsymbol{X}\right]=\boldsymbol{u}^{T} \mathrm{V}[\boldsymbol{X}] \boldsymbol{u}=\boldsymbol{u}^{T} I \boldsymbol{u}=\boldsymbol{u}^{T} \boldsymbol{u}=\boldsymbol{u} \cdot \boldsymbol{u}=\|\boldsymbol{u}\|^{2}=1$
其原理可参考先导篇中的结论。
也就是说，上式其实表示任意方向上的标准偏差为1，从偏差的角度说，所有方向情况都一致，那这就符合圆的定义，用圆表现V[X]如下：
协方差矩阵的几何性质
要注意的是，这个圆不能覆盖大部分可取的值，圆的半径只是标准差的大小，是一种偏差的平均情况。
只要协方差矩阵是单位阵，当协方差矩阵为2维的时候可以用上图的圆来表示，3维的时候可以用球体表示，n维的时候就是n维超球体。

对角矩阵与椭圆

上面讨论了协方差矩阵是单位阵的情况，那么去掉这么强的限制，换成一个相对弱一些的限制，如果协方差矩阵是对角阵时情况如何呢？其数学表述如下
$\mathrm{V}[\boldsymbol{X}]=\operatorname{diag}\left(v_{1}, v_{2}, \cdots, v_{n}\right)=\left(\begin{array}{cccc} v_{1} & & & \\ & v_{2} & & \\ & & \ddots & \\ & & & v_{n} \end{array}\right)$
可以基于之前在单位矩阵下得到的结论采取如下步骤处理：

先对X做一定变换，使其协方差矩阵变为一个单位阵
在变换后得到的空间中绘制圆（或球体超球体）
分析逆变换之后的图像

首先进行变换，如何将协方差矩阵变为单位阵？只需要给随机变量除以一个标准差即可。从空间变换的角度来看，相当于沿着各个坐标轴进行缩放变换，第i轴是原来的 $\frac{1}{\sqrt {V_i} }$ 倍。
之后画基准圆，之后对图像进行逆变换，分析最终得到的图像。
逆变换也就是将第i轴变为之前的 $\sqrt {V_i}$ 倍。于是圆变成了椭圆。示意图如下
协方差矩阵的几何性质
所以协方差矩阵是对角阵的时候，可以将其理解为一个椭圆。由椭圆投影的长度即可推得该方向上的标准差。示意图入下：

一般矩阵与倾斜的椭圆

接下来就去掉上面所有的强限制（单位阵对角阵），讨论当协方差矩阵为一般矩阵时的情况了。
和上部分的思路一样，对于一般矩阵，找到方法将其对角化，就可以把问题引到熟悉的结论上来了。探究一般协方差矩阵的几何意义的思路如下：

首先将一般协方差阵变换为对角阵
在变换后的空间中绘制简图
分析逆变换之后的图像

所以问题的关键在于能否将矩阵变为对角阵。这个问题的答案是可以，因为协方差矩阵是对称阵，对称阵的性质中最关键的一条就是，必然存在标准正交矩阵Q，使得对称阵H成为对角阵 $Q^THQ$ 。
先梳理一下基本知识，对于取值确定的矩阵A（常量），经过W=AX变换后，协方差矩阵将变换为 $V[W]=AV[X]A^T$ 。只要找到合适的变换矩阵A使得V[W]是一个对角阵即可。这里A必须是正规矩阵，如果不是的话那就无法进行逆变换，也就无法还原至原本X的情况了。正规矩阵性质解释如下（摘自百度百科）：
协方差矩阵的几何性质
综上，只要求解得A，也就是那个标准正交矩阵Q，就可以将协方差矩阵对角化了，而因为Q满足 $Q^THQ=\Lambda$ ，这里 $\Lambda$ 是对角阵，又因为Q是标准正交阵满足 $Q^TQ=QQ^T=I$ ，导致 $Q^THQ=\Lambda$ 与 $HQ=Q\Lambda$ 等价，所以根据线性代数特征值特征向量的知识，Q的各个列向量 $q_i$ 就是H的特征向量，对角阵的每个元素 $\lambda_i$ 就是 $q_i$ 的特征值。
所以可以通过以下方式得到所需的变换

先求出给定对称矩阵V的特征值 $\lambda_1,\dots,\lambda_n$
求出各个特征值的特征向量 $q_i$ ，这里就得到了Q的每一列了
将特征向量的长度化为1，就是除以自身的模
横向排列所有的特征向量（列向量）得到矩阵Q

令 $A=Q^T$ ，即可得到作用于X的矩阵A，使得X的协方差矩阵为对角阵，即 $V[W]=AV[X]A^T$ 。
那么X在几何意义上经过AX之后到底发生了什么样的变换呢？在线性代数中，正交矩阵可以用于表示旋转（或翻转）变换。所以A其实对X进行了如下操作：

通过旋转变换使协方差矩阵变为一个对角阵
根据该对角阵绘制椭圆
逆向旋转

这些操作的示意图如下：
协方差矩阵的几何性质
注意以下几点：

特征向量 $q_1,q_2,\dots,q_n$ 都与椭圆的主轴同向
特征向量的特征值越大，椭圆在该方向的宽幅就越长
椭圆各主轴的半径不等于特征值，而是特征值的平方根 $\sqrt \lambda_i$

所以，协方差矩阵就是椭圆。

协方差矩阵局限性

协方差矩阵功能确实很强大，但是它不能体现高阶相关的情况，举一个极端的概率分布图如下图所示，方块代表概率密度。
协方差矩阵的几何性质
也就是说，当 $X_3$ 只和 $X_1$ 与 $X_2$ 的联合分布相关时，协方差矩阵是无法观测到这样的相关性的。这个局限性的根源源自：即使检查了所有随机变量对的关系，也不能因此得出所有随机变量之间是否存在相关性的结论。