澄清主成分分析答案

【问题标题】：Clarification re Principle Component Analysis澄清主成分分析
【发布时间】：2018-10-22 10:28:38
【问题描述】：

我确实了解主成分分析。我知道该怎么做以及它实际上做了什么。我已经应用了 PCA，我的最佳结果显示为两个组件。我明白我的每一个输入现在都在每个组件中都有部分贡献。我不明白的是如何将 PCA 的结果（在我的情况下为 2 个组件）提供给机器学习模型？我们如何输入它们？

例如，当我想对我的特征运行 NN 时，我只需导航到它们的存储位置并导入它们，但我的 PCA 分析已在 SPSS 中运行，它向我展示的只是我的特征对每个组件。

我应该将什么导入到我的 NN 模型中？

【问题讨论】：

标签： pca spss

【解决方案1】：

PCA 是一种特征提取方法，用于避免共线性问题。例如，如果几个变量因为“它们测量同一件事”而高度相关，那么 PCA 可以提取“那件事”（技术上：一个组件）的测量值，这称为分数。您的数据集（例如 100 个测量变量）可能会减少到 10 个重要组成部分。然后，您可以使用您的测试人员在这 10 个组件中取得的分数来进行例如多维回归、聚类分析或判别分析。与直接对 100 个变量执行分析相比，这将产生更有效的结果。所以过程是按大小对特征值（和-向量）进行排序，识别重要分量的数量p（例如，通过scree-plot），设置投影矩阵 F（对应于列中最大q个特征值的特征向量）并将其与数据矩阵D相乘。这将为您提供得分矩阵 C（维度 n 乘以 q，其中 n 测试人员的数量），您可以将其用作接下来要使用的任何方法的输入。

【讨论】：