两个角度带你吃透PCA

关于(Principal Component Analysis)的推导方法很多，Ng在CS229的课程中也说到大约有10种左右；本文介绍的就是他在课程中讲到的，基于最大化方差的推导方法。

1. What is PCA

PCA是主成分分析（Principal Component Analysis）的简写，属于线性降维方法中的一种；其目的是对包含冗余的数据集进行降维等。所谓线性降维是指这种方法仅仅对于各维度之间存在线性关系（此时肯定有冗余维度）时有作用，或者说效果最好；而对于其它存在非线性情况的冗余时，不适用。

2. Idea of reduce

先来通过两个例子，弄明白降维的思想：

2.1. Reduce data from 2D to 1D

两个角度带你吃透PCA

如上图所示为一个二维平面，所有的点都用了两个维度来表示；那我们如何能降低到只用一个维度就能表示呢？接着看下图：

两个角度带你吃透PCA

此时，若仅用图中的绿色直线 $(u)$ 作为坐标轴，以每个点在 $u$ 上的的投影为新的坐标点；此时，先前的二维坐标 $(x_{i}, x_{j})$ 就被 $u$ 上的一维坐标 $z_{i}$ 取代了。

两个角度带你吃透PCA

2.2. Reduce data from 3D to 2D

两个角度带你吃透PCA

如上图所示为一个三维空间，所有的点都用了三个维度来表示；那又如何能降低到只用两个维度就能表示呢？答：投影到一个平面。

两个角度带你吃透PCA

我们可以看到，几乎所有的点都在红色平面上；所以，我们就将所有的点投影到由 $u_{1}, u_{2}$ 所张成的二维平面上，然后用二维平面点来代替原来三维空间中的点。

两个角度带你吃透PCA

以上就是降维的思想。

2.3. Standardization

在正式介绍之前，我们先对数据进行标准化处理，目的是为了提高算法的收敛速度，以及计算推导的方便性。标准化之后样本的均值为0，方差为1。如下图：
两个角度带你吃透PCA

红色的样本点，是经蓝色样本点标准化之后的结果；我们可以看到，除了全局位置发生了改变，其它诸如相对位置，以及样本点之间的结构都没有发生变化。绿色的点，为样本的均值点（中心）

3. PCA(Principal Component Analysis)

前面说到了降维的思想：从高维降到低维就是在低维空间（平面）中找到对应基（上面说到的 $u$ ）来表示原来高维空间中的点即可。所以降维的关键就在于如何建立一个模型来找到对应的基。

3.1 Reduce data from 2D to 1D

两个角度带你吃透PCA

在上图中(‘x’表示样本点，‘·’表示投影点)，似乎看一眼就觉得用左图中投影方式比右图中的更好。为什么呢？因为右图中的投影点太“密集”会导致相互重叠而丢失信息，所以显然这种投影方式不好。并且此时我们可以知道，衡量好坏的标准就是投影后所有的样本点整体上要尽可能的分开，也就是离中心点要尽量的远。而这，可以通过最大化方差(Voriance)来衡量。

两个角度带你吃透PCA

如上图所示，设直线所在的方向单位向量为 $u_{1}$ （图中红色箭头），样本点 $x$ 与 $u$ 的夹角为 $θ$ ，则该样本点的投影点到原点的距离为 $x^{T} u_{1}$ ，（ $x, u_{1}$ 均为列向量）。

证明：易知， $⟨ x, u_{1} ⟩ = | x | \cdot | u_{1} | c o s θ, d = c o s θ \cdot | x | = \frac{x^{T} u_{1}}{| x | | u_{1} |} | x | = x^{T} u_{1}$

所以我们可以得到如下优化目标：

\begin{aligned} max_{| | u_{1} | | = 1} \frac{1}{m} \sum_{i = 1}^{m} {(x^{(i)^{T}} u_{1})}^{2} & = \frac{1}{m} \sum_{i = 1}^{m} u_{1}^{T} x^{(i)} x^{(i)^{T}} u_{1} \\ (3.1) & = u_{1}^{T} (\frac{1}{m} \sum_{i = 1}^{m} x^{(i)} x^{(i)^{T}}) u_{1} \end{aligned}

对于 $(3.1)$ 这个优化问题，我们用拉格朗日乘数法很容易就能求解出 $u$ 为红色部分的特征向量。

证明：

\begin{aligned} L & = u_{1}^{T} (\frac{1}{m} \sum_{i = 1}^{m} x^{(i)} x^{(i)^{T}}) u_{1} - λ (u_{1}^{T} u_{1} - 1) \\ \frac{\partial L}{\partial u_{1}} & = u_{1}^{T} \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} x^{(i)^{T}} - λ u_{1}^{T} = 0 \\ ⟹ & u_{1}^{T} Σ = λ u_{1}^{T} ⟹ (u_{1}^{T} Σ)^{T} = (λ u_{1}^{T})^{T} \\ ⟹ & Σ u_{1} = λ u_{1} (Σ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} x^{(i)^{T}} 为对称阵) \end{aligned}

3.2 Reduce data from 3D to 2D

上面说完从2维降到1维的推导，可能比较容易理解；我再来推导以下从3维降到2维的推导，这样我们就能顺理成章地引入到高维了。

两个角度带你吃透PCA

如上图，是投影到二维平面后的结果。红色箭头分别为单位 $\vec{u_{1}}, \vec{u_{2}}$ ，则优化模型变成如下形式：

\begin{aligned} max_{| | u | | = 1} \frac{1}{m} \sum_{i = 1}^{m} [(x^{(i)^{T}} u_{1})^{2} + (x^{(i)^{T}} u_{2})^{2}] & = u_{1}^{T} Σ u_{1} + u_{2}^{T} Σ u_{2} \end{aligned}

由上面的推导可知， $u_{1}, u_{2}$ 分别为 $Σ$ 的两个特征向量。

3.3 In high-dimension

由上面的例子，我们可以顺其自然的将其拓展到高维空间中：
设 $u = {u_{1}, u_{2}, . . . u_{k}}$ 为n维空间降维到 $k (k < n)$ 维空间中的基向量,则有,

\begin{aligned} max_{| | u | | = 1} \frac{1}{m} \sum_{i = 1}^{m} {(x^{(i)^{T}} u)}^{2} & = \frac{1}{m} \sum_{i = 1}^{m} u^{T} x^{(i)} x^{(i)^{T}} u \\ = u^{T} (\frac{1}{m} \sum_{i = 1}^{m} x^{(i)} x^{(i)^{T}}) u \\ = max_{| | u | | = 1} u^{T} Σ u \end{aligned}

且 $u$ 为方阵 $Σ$ 的前k个主向量（前k个最大特征值对应的特征向量）

4. Representation

由此我们可以便可以知道从n维空间中，降到k维空间的k个基向量 $u_{1}, u_{2} . . . u_{k}$ 就是 $Σ$ 的k个主要特征向量。在我们得到这些向量之后如何来表示，也就是降维呢？下面就来说说坐标的表示：

我们知道在平面直角坐标系中，我们用的基向量分别是 $i = (1, 0)^{T}, j = (0, 1)^{T}$ ，如下图所示：

两个角度带你吃透PCA

那么向量 $x = (5, 6)^{T}$ 到底是什么含义呢？其实就是在 $i$ 方向移动 $i^{T} \cdot x = 5$ 个单位，在 $j$ 方向移动 $j^{T} \cdot x = 6$ 个单位。可能这样感观不明显，我们换旋转一下坐标系。

两个角度带你吃透PCA

如图所示，此时我们选取 $\hat{i} = (\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}})^{T}, \hat{j} = (- \frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}})^{T}$ 来作为我们的基向量，那么此时 $i, j$ 坐标系中的样本点 $x = (2, 6)^{T}$ 在 $\hat{i}, \hat{j}$ 是多少呢？答案是：在 $\hat{i}$ 方向移动 ${\hat{i}}^{T} \cdot x = \frac{8}{\sqrt{2}}$ ；在 $\hat{j}$ 方向移动 ${\hat{j}}^{T} \cdot x = \frac{4}{\sqrt{2}}$ ，所以，在新的坐标系下，样本点x的坐标为:

[\begin{matrix} {\hat{i}}^{T} \\ {\hat{j}}^{T} \end{matrix}] \cdot x = [\begin{matrix} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ - \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{matrix}] \cdot [\begin{matrix} 2 \\ 6 \end{matrix}] = [\begin{matrix} \frac{8}{\sqrt{2}} \\ \frac{4}{\sqrt{2}} \end{matrix}]

所以降维之后的坐标：

y^{(i)} = [\begin{matrix} u_{1}^{T} x^{(i)} \\ u_{2}^{T} x^{(i)} \\ u_{3}^{T} x^{(i)} \\ ⋮ \\ u_{k}^{T} x^{(i)} \end{matrix}]

5. Conclusion

由以上，我们总结降维的步骤为：

(1). 标准化；
(2). 计算 $Σ = \frac{1}{m} \sum_{i = 1}^{m} x^{(i)} x^{(i)^{T}} = \frac{1}{m} X^{T} X$ 其中， $X_{m \times n}$ 为数据集，n为维度；
(3). 计算特征向量，并选取前k个主要特性向量；
两个角度带你吃透PCA
(4). 计算降维后的数据集 $y = X u_{k \times n}^{T}$ ，

下面贴一个用python写的例子的源码pcaByCoding.py

关于PCA的推导，到此可以算是结束了。下面我再来谈谈对 $Σ$ ，以及PCA的一些理解，没兴趣的直接关闭，不影响。

6. Others

先放一张图，待会儿会用到，里面提到了运用PCA的隐藏前提。

两个角度带你吃透PCA
其中有两点值得注意，分别是线性关系和正态分布。也就是说当各个维度之间存在着线性关系，以及每个维度中的随机变量都服从正态分布时效果最佳。

第一点：关于协方差矩阵

设有如下形式数据集（已做标准化处理）：

\begin{aligned} X_{2 \times 3} = [\begin{matrix} a_{1} & b_{1} & c_{1} \\ a_{2} & b_{2} & c_{2} \end{matrix}] \end{aligned}

即，样本数和维度分别为2和3，为了叙述方面，我们后面会用a,b,c分别表示三个维度。

因此我们可以得到：

\begin{aligned} Σ = \frac{1}{m} X^{T} X = [\begin{matrix} \frac{1}{m} \sum_{i = 1}^{2} a_{i}^{2} & \frac{1}{m} \sum_{i = 1}^{2} a_{i} b_{i} & \frac{1}{m} \sum_{i = 1}^{2} a_{i} c_{i} \\ \frac{1}{m} \sum_{i = 1}^{2} a_{i} b_{i} & \frac{1}{m} \sum_{i = 1}^{2} b_{i}^{2} & \frac{1}{m} \sum_{i = 1}^{2} b_{i} c_{i} \\ \frac{1}{m} \sum_{i = 1}^{2} a_{i} c_{i} & \frac{1}{m} \sum_{i = 1}^{2} b_{i} c_{i} & \frac{1}{m} \sum_{i = 1}^{2} c_{i}^{2} \end{matrix}] \end{aligned}

又因为

\begin{aligned} V a r (X) = \frac{1}{m} E (X - E (X))^{2} = E (X - \bar{X})^{2} \\ C o v (X, Y) = C o v (Y, X) = E [(X - \bar{X}) (Y - \bar{Y}]) \\ C o v (X, X) = V a r (X) \end{aligned}

所以有：

\begin{aligned} V a r (a) = \frac{1}{m} [(a_{1} - 0)^{2} + (a_{2} - 0)^{2}] = \frac{1}{m} \sum_{i = 1}^{2} a_{i}^{2} \\ V a r (b) = \frac{1}{m} \sum_{i = 1}^{2} b_{i}^{2}; V a r (c) = \frac{1}{m} \sum_{i = 1}^{2} c_{i}^{2}; \\ C o v (a, b) = \frac{1}{m} [(a_{1} - 0) (b_{1} - 0) + (a_{2} - 0) (b_{2} - 0)] = \frac{1}{m} \sum_{i = 1}^{2} a_{i} b_{i} \\ C o v (a, c) = \frac{1}{m} \sum_{i = 1}^{2} a_{i} c_{i}; C o v (b, c) = \frac{1}{m} \sum_{i = 1}^{2} b_{i} c_{i} \end{aligned}

所以：

\begin{aligned} Σ = [\begin{matrix} V a r (a) & C o v (a, b) & C o v (a, c) \\ C o v (a, b) & V a r (b) & C o v (b, c) \\ C o v (a, c) & C o v (b, c) & V a r (c) \end{matrix}] \end{aligned}

因此 $Σ$ 称之为协方差矩阵。从这个矩阵中能得到什么信息呢？
我们知道，倘若 $C o v (X, Y) = 0$ 则，维度 $X, Y$ 之间一定不存在线性关系；又因为各维度之间均服从二维正态分布，我们可以进一步得出 $C o v (X, Y) = 0 ⟺ X, Y$ 独立。

$X, Y$ 表示：a,b,c中任意两个随机变量

也就是说，给定一个协方差矩阵：倘若除了主对角线外，其他元素均为0（或接近于0），则其对应的数据集一定不适合通过PCA来进行线性降维。或者换句话说，它已经是某个数据集PCA降维后的结果，此时不存在线性关系。

假设 $U_{k \times n}$ 为 $k$ 个基向量组成的矩阵， $X_{m \times n}$ 为维度间包含有线性关系的的矩阵（即可以降维）；则降维后的矩阵为 $Y_{m \times k} = X_{m \times n} U_{k \times n}^{T}$ ，且此时 $Y$ 的个维度之间已经不存在线性关系。

由此我们可以知道， $Y$ 的协方差矩阵 $Σ^{'}$ 肯定是一个对角阵,那到底 $Σ^{'}$ 是什么样的呢？我们一起来看看：

\begin{aligned} Σ^{'} & = \frac{1}{m} Y^{T} Y = \frac{1}{m} (X U^{T})^{T} (X U^{T}) \\ = \frac{1}{m} U X^{T} X U^{T} = U \frac{1}{m} X^{T} X U^{T} = U Σ U^{T} \end{aligned}

于是我们有：

\begin{matrix} (*) & Σ^{'} = U Σ U^{T} = Λ \end{matrix}

又， $Σ$ 是实对称阵，则必存在正交阵 $Q$ ，使得

\begin{aligned} Q^{- 1} Σ Q = Λ^{'} ， 其 中 Q = (β_{1}, β_{2} . . . β_{n}), (β_{i} 为 列 向 量), Λ^{'} = [\begin{matrix} λ_{1} \\ λ_{2} \\ ⋱ \\ λ_{n} \end{matrix}] \end{aligned}

需要注意的是，

Q

中

β

的顺序，要同

Λ^{'}

中

λ

的顺序对应，即若取

Q = (β_{2}, β_{1} . . . β_{n}), 则 Λ^{'} = [\begin{matrix} λ_{2} \\ λ_{1} \\ ⋱ \\ λ_{n} \end{matrix}]

即：

我们总能找到一个序列

Λ^{″} = [\begin{matrix} λ_{i} \\ λ_{j} \\ ⋱ \\ λ_{k} \end{matrix}] = Λ

所以此时有 $(Q^{- 1})^{″} = U, Q^{″} = U^{T} ，即 (Q^{- 1})^{″} Σ Q^{″} = Λ^{″}$

由此我们可以得到， $U = (Q^{″})^{T} = (β_{i}, β_{j}, . . .)^{T}$ ，

第二点：关于主要特征向量

前面我们说到，最终选择 $Σ$ 的k个主要特征向量；并且也说到，k个主要特征向量就是前k个最大特征值依次对应的k个特征向量。但是原因呢？

要知道原因得先来谈谈特征向量和特征值。我们知道越大的特征值所对应的特征向量在进行线性变换后被拉伸的程度越剧烈（详见此文第四章）。因此，在线性变换(降维) $y_{k \times 1}^{(i)} = U_{k \times n} x_{n \times 1}^{(i)}$ 后，欲使每个维度上的样本点越离散（方差越大），就必须选择被拉伸得最剧烈的特征向量，而被拉伸的最剧烈的特征向量，就通过 $λ$ 的值来确定。

参考：