为什么我们在主成分分析期间最大化方差？答案

【问题标题】：Why do we maximize variance during Principal Component Analysis?为什么我们在主成分分析期间最大化方差？
【发布时间】：2012-09-05 21:47:52
【问题描述】：

我正在尝试通读 PCA，发现目标是最大化方差。我不太明白为什么。对其他相关主题的任何解释都会有所帮助

【问题讨论】：

【解决方案1】：

最大化分量向量方差与最大化这些向量的“唯一性”相同。因此，您的向量彼此之间的距离尽可能远。这样，如果您只使用前 N 个分量向量，您将使用高度变化的向量捕获比使用相似向量更多的空间。想想主成分的真正含义。

以在 3D 空间中有 2 条正交线的情况为例。与两条平行（或几乎平行）的线相比，使用这些正交线可以更完整地捕捉环境。当使用非常少的向量应用于非常高维的状态时，这将成为要维护的向量之间更重要的关系。在线性代数意义上，您希望 PCA 生成独立的行，否则其中一些行将是多余的。

有关基本解释，请参阅此PDF from Princeton's CS Department。

【讨论】：

【解决方案2】：

方差是衡量您所拥有数据的“可变性”的指标。组件的数量可能是无限的（实际上，在数字化之后，它最多等于矩阵的秩，正如@jazibjamil 指出的那样），所以你想在你构建的有限集合的每个组件中“挤压”最多的信息.

如果夸大其词，您要选择一个单个主成分，您可能希望它考虑最大的可变性：因此搜索最大方差，以便一个成分收集数据集中最“独特”。

【讨论】：

这似乎是一个很好的答案，只需一次更正，矩阵的主成分数最多等于该矩阵的秩，而不是“可能无限”。
为了找到数据集的 PCA，如果数据集有 2 个特征，我们需要首先将其绘制在图上，我们可以将其绘制为 2D 图，然后计算 PCA，但我们如何绘制 4D 图数据的 4 个特征以便计算其 PCA？

【解决方案3】：

请注意，PCA 实际上不会增加数据的方差。相反，它以这样一种方式旋转数据集，以使其分布最多的方向与主轴对齐。这使您可以删除数据几乎平坦的那些维度。这会降低数据的维度，同时保持点之间的方差（或散布）尽可能接近原始数据。

【讨论】：

【解决方案4】：

最大方差基本上是设置这些占据数据点最大分布的轴，为什么？因为这个轴的方向是真正重要的，因为它有点解释相关性，稍后我们将沿这些轴压缩/投影点以消除某些维度

【讨论】：