PCA：不同数量的组件的相同解释方差比答案

【问题标题】：PCA : same explained variance ratio for different number of componentsPCA：不同数量的组件的相同解释方差比
【发布时间】：2016-04-06 01:50:47
【问题描述】：

我正在尝试理解 PCA。我有一个 3 维数据集，我构建了两个 PCA 模型，一个包含 2 个组件，另一个包含 3 个组件。但是，我不明白为什么两个 PCA 模型的解释方差比是相同的。

Model with 2 components: [ 0.60792494  0.31234679]
Model with 3 components: [ 0.60792494  0.31234679  0.07972828]

【问题讨论】：

假设您正在使用 sklearn.decomposition.PCA （如果您包括在内，问题会更好地形成），文档说：explained_variance_ratio_ : array, [n_components] 每个选定的解释的方差百分比组件。如果 n_components 未设置，则存储所有分量，解释方差之和等于 1.0。基本上，PCA 是找到构建数据集跨越的空间的所有基函数。每个组件都与每个基础相关联。

标签： python linear-algebra covariance pca variance

【解决方案1】：

如果您使用的两个模型的数据相同，那么如果您使用所有可能的组件，解释的方差比应总和为 1。在您的实例中，前两个组件解释了约 91% 的变异。因为每个 PCA 组件都与之前的组件正交，所以您添加的任何其他组件将仅解释尚未解释的方差。因此，3 组件模型的前 2 个组件将解释与 2 组件模型相同的数量，而第 3 个组件将解释额外 8% 的变化。

您使用的是python，也许一个很好的直观介绍和示例可以在http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html中找到

【讨论】：