【问题标题】:How to extract row samples from a PCA analysis如何从 PCA 分析中提取行样本
【发布时间】:2018-06-14 13:38:36
【问题描述】:

我正在运行 ggbiplot 包来对我的数据进行 PCA 分析。数据被组织为作为样本名称的行名和带有数据的 4 列。

但是有很多行,超过 1000 行。

运行 ggbiplot 时,我得到如下图,它很好地分离了我的数据 [

您可以看到样本名称粘在一起,因此不容易识别,我想提取包含这 9 个组的每个样本的行名,以了解是什么分隔了这些数据。一种想法是使用确定的 X 轴和 Y 轴范围来提取数据

有什么方法可以得到吗? ggbiplot 正在使用“prcomp”类文件

【问题讨论】:

    标签: selection pca


    【解决方案1】:

    PCA 有助于沿着主轴沿着最大方差方向可视化数据。因此,检测集群变得更容易(就像在您的 biplot 中一样)。

    但要识别特定集群的数据点/行,您需要运行集群算法。由于您的数据似乎具有不重叠的集群,因此任何聚类算法都应该这样做。但是,由于您已经知道需要多少个集群,并且对沿主轴的集群中心有一定的了解,我建议您运行 K-means 算法(k = 9 em> 用于您的分析),它将为您提供一个整数向量,指定哪个数据点属于 9 个集群中的哪一个。

    即使您直接在 PCA 分数上运行 K-means,它也应该很容易工作,因为您对 centeroids 的初步猜测来自上面的biplot

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-03-18
      • 2019-08-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-10-24
      • 2020-11-01
      相关资源
      最近更新 更多