一、PCA简介

1、 定义:主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为线性不相关,转换后的这组变量称为主成分。

2、 主要应用场景:数据压缩;消除冗余;消除数据噪声;数据降维,可视化

3、 理论基础:最大投影方差理论、最小投影距离理论和坐标轴相关度理论

4、 直观理解:找出数据里最主要的成分,代替原始数据并使损失尽可能的小

    a) 样本点到超平面的距离足够近

    b) 样本点在这个超平面的投影尽可能的分开

机器学习——特征工程之主成分分析PCA

二、PCA的推导:基于最小投影距离

1、 标准化后的m个数据 机器学习——特征工程之主成分分析PCA

2、 新坐标系 机器学习——特征工程之主成分分析PCA ,w是标准正交基

3、 数据在 机器学习——特征工程之主成分分析PCA 维中的投影 机器学习——特征工程之主成分分析PCA ,转换后的变量在原空间中的表示 机器学习——特征工程之主成分分析PCA

4、 目标优化函数

机器学习——特征工程之主成分分析PCA

5、 公式简化

机器学习——特征工程之主成分分析PCA

则目标函数等价于

机器学习——特征工程之主成分分析PCA

6、 求解变换矩阵W

    a) 由拉格朗日乘子法可得 机器学习——特征工程之主成分分析PCA

    b) 对W求导取零求极值,有 机器学习——特征工程之主成分分析PCA ,即 机器学习——特征工程之主成分分析PCA

    c) 可知W为的特征向量组成的矩阵, 机器学习——特征工程之主成分分析PCA 为特征值

三、PCA的推导:基于最大投影方差

1、 符号表义如(二)中所示

2、 任意样本 机器学习——特征工程之主成分分析PCA ,新坐标系中的投影 机器学习——特征工程之主成分分析PCA ,投影方差为 机器学习——特征工程之主成分分析PCA ,最大投影方差的目标函数如下

机器学习——特征工程之主成分分析PCA

3、 求解变换矩阵W(过程同二): 机器学习——特征工程之主成分分析PCA

四、PCA算法流程

1、 中心化所有样本数据(标准化)

2、 计算样本集的协方差矩阵

3、 对矩阵进行特征值分解,获得特征值和特征向量

4、 将特征值按照从大到小的顺序排序,选择其中最大的k个特征值对应的特征向量,标准化后组成变换矩阵W

5、 对每个样本进行投影变换以获得新(压缩后)的样本集

相关文章:

  • 2021-11-03
  • 2021-08-08
  • 2021-07-14
  • 2021-06-11
  • 2021-09-14
  • 2021-08-21
  • 2021-08-06
猜你喜欢
  • 2022-12-23
  • 2021-08-18
  • 2022-12-23
  • 2021-12-26
  • 2021-08-16
  • 2021-10-28
  • 2021-04-30
相关资源
相似解决方案