Machine Learning-L20-降维

降维

1. 主成分分析

1.1 问题定义
1.2 优化目标

（1）基于最小投影距离
（2）基于最大投影方差

1.3 问题求解

2. SVD

2.1 特征分解
2.2 SVD

原始数据通常具有较高的维数导致维数灾难，通过降维（Dimensionality reduction）可以消除数据冗余与数据噪声，降低算法的计算开销，使得数据更加易用，结果更加易懂。

1. 主成分分析

主成分分析（PCA，Principal Component Analysis）将数据从原来的坐标系转换到新的坐标系，新坐标系的选择由数据本身决定。

1.1 问题定义

$n$ 维正交空间中，坐标系 $W_n=\{w_1,w_2,...,w_n\}$ ，其中 $w$ 是标准正交基，即 $||w||_2=1, w_i^Tw_j=0$ 。

$m$ 个样本数据 $(\boldsymbol x^{(1)},\boldsymbol x^{(2)},...,\boldsymbol x^{(m)}),\sum\limits_{i=1}^{m}x^{(i)}=0$ （已中心化）。

其中 $\boldsymbol x^{(i)} = (x_1^{(i)}, x_2^{(i)}, ...,x_n^{(i)})^{T}，i={1,2,...,m}$

将 $m$ 个数据的维度从 $n$ 维降到 $n'$ 维（通常由用户指定），新的坐标系 $W = \{w_1,w_2,...,w_{n'}\}$ ，

样本点 $\boldsymbol x^{(i)}$ 在新的 $n'$ 维坐标系中投影：
$\boldsymbol z^{(i)} = (z_1^{(i)}, z_2^{(i)},...,z_{n'}^{(i)})^T, \;\; i={1,2,...,m}$ 其中 $z_j^{(i)} = w_j^T \boldsymbol x^{(i)},\;\; i={1,2,...,m}, j={1,2,...,n'}$
是 $\boldsymbol x^{i}$ 在低维坐标系中第 $j$ 维的坐标。

使用 $\boldsymbol z^{i}$ 恢复原始数据 $\boldsymbol x_{i}$ ，则得到的恢复数据
$\overline{\boldsymbol x}^{(i)} = \sum\limits_{j=1}^{n'}z_j^{(i)}w_j = Wz^{(i)}$

1.2 优化目标

降维相当于使用一个超平面对样本进行表达，该超平面具有以下性质

最近重构性：样本点到这个超平面距离足够近
最大可分性：样本点在这个超平面上的投影尽可能分开

（1）基于最小投影距离

希望 $m$ 个 $n'$ 维的数据集尽可能的代表原始数据集，即数据从 $n$ 维降到 $n'$ 维的损失尽可能小，优化目标为
$\min \sum\limits_{i=1}^{m}||\overline{\boldsymbol x}^{(i)} - \boldsymbol x^{(i)}||_2^2$

$\begin{aligned} \sum\limits_{i=1}^{m}||\overline{\boldsymbol x}^{(i)} - \boldsymbol x^{(i)}||_2^2 & = \sum\limits_{i=1}^{m}|| W\boldsymbol z^{(i)} - \boldsymbol x^{(i)}||_2^2 \\ & = -tr( W^TXX^TW) + \sum\limits_{i=1}^{m} \boldsymbol x^{(i)T}\boldsymbol x^{(i)} \end{aligned}$ 由于 $\sum\limits_{i=1}^{m}\boldsymbol x^{(i)}\boldsymbol x^{(i)T}$ 是数据集的协方差矩阵，为常量，优化目标等价于：
$\begin{aligned}\min_{W}\; & -tr( W^TXX^TW) \\ &s.t. \;\; W^TW=I \end{aligned}$

（2）基于最大投影方差

对于任意一个样本 $\boldsymbol x^{(i)}$ ，在新的坐标系中的投影为 $W^T \boldsymbol x^{(i)}$ ，在新坐标系中的投影方差为 $W^T\boldsymbol x^{(i)} \boldsymbol x^{(i)T}W$ ，
要使所有的样本的投影方差和最大，也就是最大化 $\sum\limits_{i=1}^{m}W^Tx^{(i)}x^{(i)T}W$ 的迹，即：
$\begin{aligned}\max_{W}\; & tr( W^TXX^TW) \\ &s.t. \;\; W^TW=I \end{aligned}$

可以看出最近重构性等价于最大可分性。

1.3 问题求解

使用拉格朗日乘子法，引入拉格朗日函数 $J(W) = -tr( W^TXX^TW + \lambda(W^TW-I))$
对 $W$ 求导，令导数等于0得， $XX^TW=\lambda W$

$W$ 为 $XX^T$ 的 $n'$ 个特征向量组成的矩阵，而 $\lambda$ 为 $XX^T$ 的若干特征值组成的矩阵，特征值在主对角线上，其余位置为0。将数据集从 $n$ 维降到 $n'$ 维时，需要找到最大的 $n'$ 个特征值对应的特征向量。

对协方差矩阵 $XX^T$ 进行特征值分解，将求得的特征值排序：
$\lambda_1 \geq \lambda_2 \geq ... \geq \lambda_n$ 取前 $n'$ 个特征值对应的特征向量构成解
$W^* = (w_1,w_2,...w_{n'})$
实践中，一般对 $X$ 进行奇异值分解代替协方差矩阵的特征值分解。

2. SVD

奇异值分解(SVD，Singular Value Decomposition)是以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域，是很多机器学习算法的基石。

2.1 特征分解

$A$ 是一个 $n$ 阶矩阵，若 $\lambda$ 和 $n$ 维非零向量 $\boldsymbol x$ 满足： $A \boldsymbol x=\lambda \boldsymbol x$ 则 $\lambda$ 是矩阵 $A$ 的一个特征值， $\boldsymbol x$ 是矩阵 $A$ 对应特征值 $\lambda$ 的特征向量。
$\mid \lambda E - A\mid$ 称为 $A$ 的特征多项式，当特征多项式等于0的时候，称为 $A$ 的特征方程，特征方程是一个齐次线性方程组，求解特征值的过程就是求解特征方程的解。

矩阵 $A$ 的 $n$ 个特征值 $\lambda_1 \leq \lambda_2 \leq ... \leq \lambda_n$ ，以及这 $n$ 个特征值所对应的特征向量 $\{w_1,w_2,...w_n\}$ ，如果这 $n$ 个特征向量线性无关，那么矩阵A就可以用下式的特征分解表示： $A=W\Sigma W^{-1}$

其中， $W$ 是这 $n$ 个特征向量所张成的 $n×n$ 矩阵，而 $\Sigma$ 为这 $n$ 个特征值为主对角线的 $n×n$ 阶矩阵。
一般会把 $W$ 的 $n$ 个特征向量标准化，即满足 $||w_i||_2 =1$ 或者说 $w_i^Tw_i =1$ ，此时 $W$ 的 $n$ 个特征向量为标准正交基，满足 $W^TW=I$ ，即 $W^T=W^{-1}$ ，也就是说 $W$ 为酉矩阵。
此时特征分解表达式可以写成： $A=W\Sigma W^T$

2.2 SVD

要进行特征分解，矩阵 $A$ 必须为方阵，那么如果 $A$ 不是方阵，即行和列不相同时，需要使用SVD。
假设矩阵 $A$ 是一个 $m×n$ 的矩阵，定义矩阵 $A$ 的SVD为： $A = U\Sigma V^T$

其中 $U$ 是一个 $m×m$ 的矩阵， $V$ 是一个 $n×n$ 的矩阵。 $U$ 和 $V$ 称为A的左/右奇异向量矩阵，都是酉矩阵，即满足 $U^TU=I,V^TV=I$ 。
$\Sigma$ 是一个 $m×n$ 的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值，通常将奇异值由大到小排列，这样 $\Sigma$ 便能由 $A$ 唯一确定。
Machine Learning-L20-降维

奇异值与特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快。很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，也可以用最大的 $k$ 个的奇异值和对应的左右奇异向量来近似描述矩阵：

$\begin{aligned} A_{m \times n} = & U_{m \times m}\Sigma_{m \times n} V^T_{n \times n}\\ \approx & U_{m \times k}\Sigma_{k \times k} V^T_{k \times n} \end{aligned}$

其中 $k$ 要比 $n$ 小很多，即一个大的矩阵 $A$ 可以用三个小的矩阵 $U_{m \times k},\Sigma_{k \times k} ,V^T_{k \times n}$ 来表示：
Machine Learning-L20-降维
由于这个重要的性质，SVD可以用于PCA降维，来做数据压缩和去噪。也可以用于推荐算法，将用户和喜好对应的矩阵做特征分解，进而得到隐含的用户需求来做推荐。同时也可以用于NLP中的算法，比如潜在语义索引（LSI）。