降维如何用于文档分类答案

【问题标题】：How Dimensional reduction works for document classification降维如何用于文档分类
【发布时间】：2014-11-23 23:10:36
【问题描述】：

参考以下链接What does dimensionality reduction mean?，用电影和人物例子很好地解释了降维但我无法理解的是数学特征向量如何成为电影的特征，为什么特征向量而不是任何其他向量

【问题讨论】：

【解决方案1】：

大多数向量都带有一些信息。所以任何向量都可以完成这项工作（事实上，由于复杂性，我们通常只计算近似特征向量）。

特征向量具有保留大部分方差的好特性，即强特征向量具有最多的信息，而最后的特征向量可能与较早的特征向量完全冗余。

对于降维，您希望在尽可能少的向量中包含尽可能多的信息。所以PCA/SVD是一个合理的选择。

但也有基于随机投影的降维技术。

【讨论】：

为什么特征向量解释了矩阵中的最大变异
这就是 PCA 的定义 - 在第一个组件上具有最大方差的投影。见 Jolliffe I.T.主成分分析，系列：施普林格统计系列，第 2 版，施普林格，纽约，2002 年，XXIX，487 页。 28 插图。国际标准书号 978-0-387-95442-4