【问题标题】:Why Principle Components of Covariance matrix capture maximum variance of the variables?为什么协方差矩阵的主成分捕获变量的最大方差?
【发布时间】:2017-11-30 03:36:56
【问题描述】:

我正在尝试了解 PCA,我浏览了几个教程。到目前为止,我理解,矩阵的特征向量意味着当向量乘以该矩阵时,向量旋转和缩放的方向与特征值成比例。因此,与最大特征值相关的特征向量定义了最大旋转的方向。我知道沿着主成分,变化是最大的,重建误差是最小的。我不明白的是:

为什么要找到协方差矩阵的特征向量对应的轴,使得原始变量更好地用这个轴定义?

除了教程之外,我还在这里查看了其他答案,包括 thisthis。但是还是没看懂。

【问题讨论】:

  • 哪个部分造成了麻烦?您不一定需要“旋转”概念。
  • @percusse,对。换句话说,为什么协方差矩阵的特征向量对应于轴,使得原始变量更好地用这个轴定义?

标签: statistics linear-algebra pca eigenvector


【解决方案1】:

你的前提不正确。 PCA(和协方差矩阵的特征向量)当然不能“更好地”代表原始数据。

简而言之,PCA 的目标是为您的数据找到一些较低维度的表示(X,在 n 维度中),以便尽可能多地保留变化。结果是这个低维表示是一个正交子空间,它是您数据的最佳k 维表示(其中k < n)。我们必须找到那个子空间。

另一种思考方式:给定一个数据矩阵X,找到一个矩阵Y,使得YkX 维投影。为了找到 最佳 投影,我们可以最小化 XY 之间的差异,这在矩阵语言中意味着最小化 ||X - Y||^2

由于Y 只是X 到较低维度的投影,我们可以说Y = X*v 其中v*v^T 是较低等级的投影。谷歌rank 如果这没有意义。我们知道Xv 的维度比X 低,但我们不知道它指向什么方向。

为此,我们找到v 使得||X - X*v*v^t||^2 最小化。这相当于最大化||X*v||^2 = ||v^T*X^T*X*v||X^T*X 是数据的样本协方差矩阵。这就是数学上我们关心数据协方差的原因。此外,事实证明,做得最好的v 是一个特征向量。在低维投影/近似中,每一维都有一个特征向量。这些特征向量也是正交的。

请记住,如果它们是正交的,那么它们中任意两个之间的协方差为0。现在考虑一个对角线非零且非对角线为零的矩阵。这是一个正交列的协方差矩阵,即每一列都是一个特征向量。

希望这有助于弥合协方差矩阵之间的联系,以及它如何帮助产生最佳的低维子空间。

同样,特征向量不能更好地定义我们的原始变量。通过将 PCA 应用于数据集确定的轴是我们的原始变量的线性组合,这些变量往往表现出最大的方差并产生与我们的原始数据最接近的可能近似值(由 l2 范数测量)。

【讨论】:

  • 谢谢。您能否详细说明'如果它们是正交的,那么它们中的任何两个之间的协方差是'。对于原始数据(比如说 2D),x 轴和 y 轴是正交的,但协方差可以是非零的。那么为什么在使用特征向量作为新轴的情况下它们必须为零?
  • 两个正交变量(或维度、轴、特征等)之间的协方差为 0。这应该通过协方差的定义/公式显而易见。 X 和 Y 轴确实是正交的,但原始变量并不完全位于 X 或 Y 轴上,对吧?它们可能具有非零 X 值和非零 Y 值。 PCA 试图找到投影这些数据点的正交轴。
  • @Rakib 大声笑我在同一个问题上停留了很长时间,然后我意识到它一点也不复杂。不仅仅是协方差矩阵的特征向量(我们将投影到的新特征)是正交的,这使得协方差为零。事实上,特征向量在它们中的一个被协方差矩阵变换后是正交的,这使得协方差为零!在这里,我来解释一下。对于我们的原始特征,假设我们使用 X 轴和 Y 轴,那么沿这些方向的特征“单位”将是 i 和 j(基向量)。
  • 为了获得两者之间的协方差,我们将计算 (i^T)C(j),其中 C 是原始数据集的协方差矩阵。如您所见,即使 X 轴和 Y 轴是正交的,这意味着 (i^T)(j)=0, (i^T)C(j) 不是 0,而是给了我第二个元素列协方差矩阵的第一行 (X 轴上的特征和 Y 轴上的特征之间的协方差,我们正在寻找。) 但是,如果我们选择特征 (u1) 和(u2) 是协方差矩阵的特征向量,则 (u1^T)C(u2)=0, AND (u1)^T(u2)=0。
  • 寻找新特征有三个要求:第一个的方差必须最大,任何两个的协方差必须为零,并且它们必须相互正交。选择它们作为协方差矩阵的特征向量满足所有三个。但是,不要混淆这些特征是正交的,因为它们之间的协方差为零。正交性满足(u1)^T(u2)=0,而零协方差满足(u1)^T(C)(u2)=0
猜你喜欢
  • 2018-11-10
  • 2022-01-04
  • 2020-01-28
  • 2014-03-06
  • 1970-01-01
  • 1970-01-01
  • 2013-02-01
  • 2020-04-13
  • 2012-12-09
相关资源
最近更新 更多