分层数据和描述答案

【问题标题】：Hierarchical data and descriptives分层数据和描述
【发布时间】：2017-01-25 18:49:00
【问题描述】：

我在处理分层数据结构以获得简单的描述性统计数据时遇到问题；对于每个 1 级观察，我有几个（但数量不同）2 级观察，例如：

Level 1  Level2  x    y    z      k

   1        a   0.12  1  debt     0
   1        b   0.08  1  debt     0
   1        c   0.22  1  debt     0
   2        d   0.32  0  credit   1
   2        e   0.17  0  credit   1
   3        f   0.20  1  credit   1
   3        g   0.11  1  credit   1
   3        h   0.05  1  credit   1
   3        i   0.01  1  credit   1

虽然一些变量取决于级别 2 (x)，但其他变量 (y,z,k) 取决于级别 1。如果我如何获得描述性统计数据 - 例如 table(k) - 分组为级别 1 而不是级别 2？

例如。 table(k) 在这种特殊情况下产生 6，但我希望它产生 2，例如当 k=1 时级别 1 的集群数，类似于 table(k ~ study)

提前感谢您的帮助

马可

【问题讨论】：

dplyr 包有一个 group_by() 函数可以在这里使用：k %>% group_by(Level 1) %>% summarise(COUNTS = n(), SUM = sum(x))
感谢您的帮助。它产生Error in UseMethod("group_by_") : no applicable method for 'group_by_' applied to an object of class "c('integer', 'numeric')"
您是否安装并加载了库dplyr？此外，函数是'group_by()。 group_by_() 可能不是你想要的。
是的，它已加载，但似乎这两个函数都无法处理虚拟 k 等数值
告诉我而不显示我没有帮助 - 发布您的代码，以便我可以更好地帮助您。您的输出可能有问题：stackoverflow.com/questions/30895876/error-with-dplyr-group-by

标签： r statistics hierarchical-data

【解决方案1】：

这就是您将如何使用 dplyr 来实现此目的：

library(dplyr)

df <- data_frame(Level1 = rep(1:3, each = 3),
                 Level2 = letters[1:9],
                 x = c(0.12,0.08,0.22,0.32,0.17,0.20,0.11,0.05,0.01),
                 y = c(1,1,1,0,0,1,1,1,1),
                 z = c(rep("debt",4),rep("credit",5)),
                 k = c(0,0,0,1,1,1,1,1,1))

df %>% 
  count(Level1, k) 

Source: local data frame [3 x 3]
Groups: Level1 [?]

  Level1     k     n
   <int> <dbl> <int>
1      1     0     3
2      2     1     3
3      3     1     3

在您说“它不起作用”之前，请务必通读软件包的帮助和小插曲。有可能它工作得很好，你只是使用不正确。

【讨论】：

感谢您的帮助，很抱歉打扰您，但这并不能满足我的要求。我很可能表达得很糟糕。我正在寻找的是一个函数，它告诉我“有多少 1 级集群有 k=1？”，所以在上面的示例中，我正在寻找“2”。使用 dplyr，我唯一能得到的是按级别 1 分组的整个数据集
那么您正在查看count()。我已经编辑了我的答案。如果您想要输出中的特定组，那么您只需 filter() 您想要/不想要的。