PCA原理补充 - 爱码网

PCA（Principal Component Analysis）是一种常用的数据分析方法。前面转了一篇关于PCA原理的文章，其中有些部分写的不是很清晰，因此做一个补充。

方差和协方差

下图是一个正态分布，均值和方差提供了对数据在特征空间的分布进行衡量的手段。如图所示，大部分的数据都分布在 $\mu\pm3\sigma$ 区间中。

PCA原理补充

而方差的计算公式如下，

$\begin{aligned} \sigma(x,x) &=E[(x-E(x))(x-E(x))]\\ &=E[(x-E(x))^2] \end{aligned}$

从上式可以看出，方差只能用来表示数据平行于坐标轴(例如 $x,y$ )的数据分布，考虑下图二维的数据分布，

PCA原理补充

借助上图中的数据，我们可以计算出 $x$ 方向的方差 $\sigma(x,x)$ ，以及 $y$ 方向的方差 $\sigma(y,y)$ 。但是数据在 $x$ 和 $y$ 方向上的分布并没有描述出图中的对角线相关关系，这时候就有了协方差，利用协方差可以描述多维随机变量之间(多维特征空间)的相关关系，协方差的计算公式如下所示，

$\sigma(x,y)=E[(x-E(x))(y-E(y))]$

接下来，以二维数据为例，将计算的 $x$ 和 $y$ 方向方差以及 $x,y$ 的协方差，构成一个协方差矩阵，用 $\Sigma$ 表示，如下所示，

$\Sigma = \begin{pmatrix} \sigma(x,x) & \sigma(x,y)\\ \sigma(y,x) & \sigma(y,y) \end{pmatrix}$

其中， $\sigma(x,y)=\sigma(y,x)$ ，所以它是一个对称矩阵。对于二维特征空间，协方差矩阵为 $2\times2$ ，对于 $N$ 维特征空间，协方差矩阵为 $N\times N$ 。

下图展示了数据分布不同，对应的协方差矩阵的不同。

PCA原理补充

PCA

那么如何利用协方差矩阵去提取出数据的主成分？这里以二维为例，即在特征空间中找到某一向量(方向)，如果将我们的所有数据投影到这个向量上，能保证数据的范围，即方差最大。

假如我们已经找到了向量 $\vec{v}$ ，我们的数据矩阵为 $D$ (已经进行了Standardization，均值为0)， $D$ 在向量 $\vec{v}$ 上的投影为 $\vec{v}^TD$ ，投影后的数据的方差计算如下式所示(下面计算中都略去了对样本数的平均项 $\frac{1}{m}$ )，

$\begin{aligned} \vec{v}^TD(\vec{v}^TD)^T&= \vec{v}^TDD^T\vec{v}\\ &=\vec{v}^T\Sigma\vec{v} \end{aligned}$

上式中比较关键的一步是 $DD^T=\Sigma$ (只有在我们的原始数据每一个维度，即feature，先经过feature scale，变为均值为0，才能得到这个结果)。

接下来我们的优化目标就是使得上式的方差取得最大值，在这里我们将向量 $\vec{v}$ 限定为单位长度，即 $\vec{v}^T\vec{v}=1$ 。

Rayleigh商

由于协方差矩阵 $\Sigma$ 是对称阵，则上述问题就转化为如下的Rayleigh商,

$R(\vec{v})=\frac{\vec{v}^T\Sigma\vec{v}}{\vec{v}^T\vec{v}}$

由于协方差矩阵 $\Sigma$ 是对称阵，所以一定可以对角化进行特征分解。由定理可得， $R(\vec{v})$ 的最大值在矩阵 $\Sigma$ 对应最大特征值所对应的特征向量处取得。

$\begin{aligned} maxR(\vec{v})=\lambda_{max}\\ minR(\vec{v})=\lambda_{min} \end{aligned}$

至此，关于为何在PCA时需要对数据的协方差矩阵进行特征分解，然后取得主成分的原理已经介绍完毕。

下面是不同协方差矩阵时所进行的特征分解，

协方差为0，

PCA原理补充

协方差不为0，

PCA原理补充