机器学习(六)PCA---K-L变换

K-L变换 是最优正交线性变换，其对应的特征提取方法被称为 PCA方法，PCA是一种无监督的特征变换，进行特征降维变换，不能完全地表示原有的对象，而K-L变换能够考虑到不同的分类信息，实现有监督的特征提取。

特征提取 即用映射（或变换）方法把原始特征变换为较少的新特征。
Eg. 对于一个映射或变换有 $y=w^{T}x$ ，若 $x\in R^{d\times 1},w\in R^{d\times k}\ (k< d)$ ，那么最后得到的 $y\in R^{k\times 1}$ ，实现降维操作。

1. K-L变换原理

已知对任何一个向量 x 都可以用完备正交归一向量系 w_i 来表示，即：
机器学习(六)PCA---K-L变换

对于正交则是有：

$w_{i}^{T}w_{j}=\left\{\begin{matrix} 0 & (i\neq j) \\ 1 & (i=j) \end{matrix}\right.$

若接下来使用有限个正交归一向量来表示一个向量 x，那肯定存在误差，接下来一起讨论下其原理以及为什么能做到降维？

第一步： 用有限项来估计向量：
机器学习(六)PCA---K-L变换

第二步： 计算均方误差：
机器学习(六)PCA---K-L变换
其中，变换矩阵 R 是原样本向量 x 的二阶矩阵（注意，这里还可以是其他矩阵，如协方差矩阵），若使得误差最小，那么前d项之和最大，对这个问题可以转化为拉格朗日乘子法来解决。

第三步： Lagrange乘子法来优化：
机器学习(六)PCA---K-L变换
λ_i 是 R 的特征值（特征分解）

第四步： 均方误差转化：
机器学习(六)PCA---K-L变换
总结： 当取矩阵 R 的前d个最大特征值对应的特征向量来展开 x 时，其截断均方误差最小，实现了降维，但相应损失一些信息。

机器学习(六)PCA---K-L变换
协方差矩阵即： $E\{(x-\bar{x})(x-\bar{x})^{T}\}$