R中的集群数据[重复]

【问题标题】：Cluster Data in R [duplicate]R中的集群数据[重复]
【发布时间】：2021-09-26 03:57:24
【问题描述】：

我对 R 非常陌生，我想帮助我对数据进行聚类和分析。我有一个包含许多列和数据点的数据集。数据框看起来像这样：

V1	V2	V3
G. Cole	53.1	.1.
C. Kershaw	56.8	.3
G. Cole	53.5	.2
N. Ryan	54.6	.5

我要运行的分析是找到每个名称 V1 的 V2 的标准差。我该如何做到这一点，以便获得 V1 中每个人各自 V2 数据集的标准偏差。例如，G. Cole 的 V2 标准差是多少？我在 V1 及其后续的 V2 和 V3 值中有数千个名称，我想找到 V2 的每个 SD 并将它们从最高到最低排序。为了做到这一点，我会运行什么简单的代码？

谢谢

【问题讨论】：

标签： r cluster-analysis cluster-computing

【解决方案1】：

使用dplyr：

library(dplyr)
df %>% 
        group_by(V1) %>% 
        summarise(std = sd(V2)) %>% 
        arrange(desc(std))

输出：

  V1            std
  <chr>       <dbl>
1 G. Cole     0.283
2 C. Kershaw NA    
3 N. Ryan    NA

注意：对于除 G. Cole 之外的名称，您会得到 NA，因为这是您的特定示例中唯一具有多个示例的名称。但假设每个名称都有多个观察值，它将适用于您的较大数据。

【讨论】：

嗨。谢谢！这很好用。现在，我想添加两列。首先，G. Cole 和 C. Kershaw .... 出现了多少次。每个 V1 出现的频率。接下来，我想添加每个 V8 的 V3 平均值。如何将所有这些添加到同一张表中？谢谢！