主成分分析为什么我们要找到向量的最大值？答案

【问题标题】：Principle Component Analysis why are we finding the max of the vectors?主成分分析为什么我们要找到向量的最大值？
【发布时间】：2015-10-04 16:31:33
【问题描述】：

我正在尝试理解 PCA，但我被困在一个特定的部分。在它被引用到哈佛数据科学课程之后，我在这里查找了它：https://en.wikipedia.org/wiki/Principal_component_analysis 在详细信息下，然后在第一个组件下方，他们说“因此必须满足第一个加载向量 w(1)”，我明白为什么下面的行是正确的？

||w|| 的最大参数= 1 意味着当 w 是单位向量时，求和的最大值。但我不明白我们为什么要这样做，或者如果我们有一个给定的矩阵 X，这些值会如何变化。除非试图优化每一行的权重？

或者我们是否只是为了将其转换为 Raleigh 商形式，然后我们可以使用特征值来找到与矩阵相关联的最大特征向量？（也是最大的向量）

为什么我们首先想要最大的向量？在我们的转换轴中，我们是否只是显示每个维度的最大方差？难道我们不想转换所有点并尝试查看一些相关性吗？

【问题讨论】：

标签： statistics linear-algebra data-analysis statsmodels

【解决方案1】：

某种意义上，特征值最大的特征向量指向方差最大的方向。具有第二大特征值的那个指向在考虑第一个之后剩下的最大方差的方向。具有第二大特征值的特征向量将与具有最大特征值的特征向量正交。再看一下您引用的 Wikipedia 文章，然后查找右上角的图表。较长的线是具有最大特征值的特征向量，它指向数据中的最大方差。较短的线是具有第二大特征值的特征向量，它指向与第一条线正交的最大剩余方差。

【讨论】：

为什么选择最大化他们所说的“分数”的特征向量，最小化 PC 和数据之间的 MSE？
此 StackExchange 数学条目可能会解决您的问题。我在学习 PCA 时发现它很有帮助。 math.stackexchange.com/questions/23596/…