【问题标题】:Cluster Data in R [duplicate]R中的集群数据[重复]
【发布时间】:2021-09-26 03:57:24
【问题描述】:

我对 R 非常陌生,我想帮助我对数据进行聚类和分析。我有一个包含许多列和数据点的数据集。数据框看起来像这样:

V1 V2 V3
G. Cole 53.1 .1.
C. Kershaw 56.8 .3
G. Cole 53.5 .2
N. Ryan 54.6 .5

我要运行的分析是找到每个名称 V1 的 V2 的标准差。我该如何做到这一点,以便获得 V1 中每个人各自 V2 数据集的标准偏差。例如,G. Cole 的 V2 标准差是多少?我在 V1 及其后续的 V2 和 V3 值中有数千个名称,我想找到 V2 的每个 SD 并将它们从最高到最低排序。为了做到这一点,我会运行什么简单的代码?

谢谢

【问题讨论】:

    标签: r cluster-analysis cluster-computing


    【解决方案1】:

    使用dplyr

    library(dplyr)
    df %>% 
            group_by(V1) %>% 
            summarise(std = sd(V2)) %>% 
            arrange(desc(std))
    

    输出:

      V1            std
      <chr>       <dbl>
    1 G. Cole     0.283
    2 C. Kershaw NA    
    3 N. Ryan    NA   
    

    注意:对于除 G. Cole 之外的名称,您会得到 NA,因为这是您的特定示例中唯一具有多个示例的名称。但假设每个名称都有多个观察值,它将适用于您的较大数据。

    【讨论】:

    • 嗨。谢谢!这很好用。现在,我想添加两列。首先,G. Cole 和 C. Kershaw .... 出现了多少次。每个 V1 出现的频率。接下来,我想添加每个 V8 的 V3 平均值。如何将所有这些添加到同一张表中?谢谢!
    猜你喜欢
    • 2020-12-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-11-07
    • 2011-09-12
    • 2015-08-07
    • 1970-01-01
    相关资源
    最近更新 更多