PCA的计算实例

PCA (Principal Components Analysis)，即主成分分析法，是多元数据处理的重要方法之一。在多变量问题的研究中，变量间经常存在一定的相关性。当变量很多时，在高维空间中研究样本的分布规律常常比较困难。为了克服这一困难，一个很自然的想法就是采取降维的方法，也就是利用全部n个变量来重新构造m个新的综合变量(m<n)，并使得这m个较少的变量既能尽可能多地反映原来n个变量的统计特性，并且它们之间又是相互独立的。
所以PCA的主要目的是：（1）简化统计数据，即降维。（2）揭示变量间的关系。

下面举例说明PCA是如何减少要处理的数据的。如果考虑n个变量的情形，我们感兴趣的是它们的离差和相关系数。对于n个变量，我们要研究的有n个均值，n个离差和1/2 n(n-1)个相关系数，共计1/2 n(n+3)个参数。若p=1，则仅有2个参数；若p=2，则有5个参数；若p=10，参数个数达65个之多。显然，如能把变量变换成为一个不相关的集合，那么有1/2 n(n-1)个相关系数变为零，可大大地减少表示这个集合的复杂性。又若把数据从n维降到m维（m≤n），那么可以省略1/2 n(n+3)-1/2 (n-m)(n-m+3)=-m^2/2+mn+3m/2个参数。由此可知：消元和减少相关性是使数据结构简化的两个措施。而主成分分析便是基于变量之间的相互关系，在信息总量守恒的前提下，利用线性变换的方法来实现去相关性的，由于所获各主成分之间不相关，故各主成分之间信息没有重复或冗余。

好了，废话那么那么多，现在举实例计算。

PCA的计算实例

补充一个我在知乎上写的例子。（知乎专栏）