PCA (Principal Components Analysis),即主成分分析法,是多元数据处理的重要方法之一。在多变量问题的研究中,变量间经常存在一定的相关性。当变量很多时,在高维空间中研究样本的分布规律常常比较困难。为了克服这一困难,一个很自然的想法就是采取降维的方法,也就是利用全部n个变量来重新构造m个新的综合变量(m<n),并使得这m个较少的变量既能尽可能多地反映原来n个变量的统计特性,并且它们之间又是相互独立的。
  所以PCA的主要目的是:(1)简化统计数据,即降维。(2)揭示变量间的关系。

  下面举例说明PCA是如何减少要处理的数据的。如果考虑n个变量的情形,我们感兴趣的是它们的离差和相关系数。对于n个变量,我们要研究的有n个均值,n个离差和1/2 n(n-1)个相关系数,共计1/2 n(n+3)个参数。若p=1,则仅有2个参数;若p=2,则有5个参数;若p=10,参数个数达65个之多。显然,如能把变量变换成为一个不相关的集合,那么有1/2 n(n-1)个相关系数变为零,可大大地减少表示这个集合的复杂性。又若把数据从n维降到m维(m≤n),那么可以省略1/2 n(n+3)-1/2 (n-m)(n-m+3)=-m^2/2+mn+3m/2个参数。由此可知:消元和减少相关性是使数据结构简化的两个措施。而主成分分析便是基于变量之间的相互关系,在信息总量守恒的前提下,利用线性变换的方法来实现去相关性的,由于所获各主成分之间不相关,故各主成分之间信息没有重复或冗余。

  好了,废话那么那么多,现在举实例计算。

  
PCA的计算实例
PCA的计算实例
PCA的计算实例
PCA的计算实例

  

补充一个我在知乎上写的例子。(知乎专栏)

相关文章:

  • 2022-01-07
  • 2022-12-23
  • 2021-11-25
  • 2021-11-13
  • 2021-08-15
  • 2022-01-01
  • 2021-05-20
  • 2022-12-23
猜你喜欢
  • 2021-08-07
  • 2021-08-21
  • 2022-12-23
  • 2022-12-23
  • 2021-12-14
  • 2021-12-02
  • 2021-12-23
相关资源
相似解决方案