如何从 PCA 分析中提取行样本

【问题标题】：How to extract row samples from a PCA analysis如何从 PCA 分析中提取行样本
【发布时间】：2018-06-14 13:38:36
【问题描述】：

我正在运行 ggbiplot 包来对我的数据进行 PCA 分析。数据被组织为作为样本名称的行名和带有数据的 4 列。

但是有很多行，超过 1000 行。

运行 ggbiplot 时，我得到如下图，它很好地分离了我的数据 [

您可以看到样本名称粘在一起，因此不容易识别，我想提取包含这 9 个组的每个样本的行名，以了解是什么分隔了这些数据。一种想法是使用确定的 X 轴和 Y 轴范围来提取数据

有什么方法可以得到吗？ ggbiplot 正在使用“prcomp”类文件

【问题讨论】：

标签： selection pca

【解决方案1】：

PCA 有助于沿着主轴沿着最大方差方向可视化数据。因此，检测集群变得更容易（就像在您的 biplot 中一样）。

但要识别特定集群的数据点/行，您需要运行集群算法。由于您的数据似乎具有不重叠的集群，因此任何聚类算法都应该这样做。但是，由于您已经知道需要多少个集群，并且对沿主轴的集群中心有一定的了解，我建议您运行 K-means 算法（k = 9 em> 用于您的分析），它将为您提供一个整数向量，指定哪个数据点属于 9 个集群中的哪一个。

即使您直接在 PCA 分数上运行 K-means，它也应该很容易工作，因为您对 centeroids 的初步猜测来自上面的biplot。

【讨论】：