【问题标题】:Table of mean (SD)s平均值 (SD) 表
【发布时间】:2016-12-14 16:22:06
【问题描述】:

我有一个相对较大的数据集,我想打印一个包含因子组合的均值和标准差的表格。我希望它们采用如下格式:

         A            B
test1    2.0 (1.0)    5.0 (2.0)
test2    6.3 (3.1)    2.1 (0.7)

有没有简单的方法可以做到这一点?

我得到的最接近的是使用tables::tabular 函数(最小示例):

# Example data
df = data.frame(
   group=c('A', 'A',  'A', 'B', 'B', 'B'),
   value=c(1,2,3,6,8,9))

# Print table     
library(tables)
tabular(value ~ group * (mean + sd), df)

...输出这个:

       group               
       A        B          
       mean  sd mean  sd   
 value 2     1  7.667 1.52

但是我还没有想出一个巧妙的方法来将此格式转换为上面的mean (SD) 格式。注意:这些示例非常少。我会有更大的层次结构(目前是 4 x (mean+sd) 列和 2 x 3 行),但基本问题是相同的。

【问题讨论】:

  • 你应该做一个包含test var的例子。

标签: r dataframe mean standard-deviation


【解决方案1】:
library(reshape2)

formatted.table <- dcast(df, 'value' ~ group, fun.aggregate = function(x) {
    return(sprintf('%0.1f (%0.1f)', mean(x), sd(x)))
})

# "value"         A         B
#   value 2.0 (1.0) 7.7 (1.5)

类似于 Chris 的回答,但更简洁一些(并且不需要“测试”变量)。

您也可以使用 dplyr 包进行这种类型的聚合。

【讨论】:

  • 你不需要测试变量,但它在一开始就在他的示例框架中......就像sprintf一样!
  • 谢谢,这成功了!我现在可以看到,在我的示例中我有点太小了。实际上,我将 test1 和 test2 作为单独的 columns 在我的 data.frame 中,而不是作为因子中的级别。 dcast 只需要一个 value.var - 或者有没有办法?在调用dcast 之前,我总是可以做一个melt
  • 融合 test1 和 test2 列并在您的 dcast 调用中包含新列将是这样做的方法。 Hadley Wickham 的 dplyr 包现在也有一个 summarize_all 函数可以完成此操作。
【解决方案2】:

从data.table,我们可以使用dcast(包括你的测试变量):

library(data.table)

df = data.frame(
  group=c('A', 'A',  'A', 'B', 'B', 'B','A', 'A',  'A', 'B', 'B', 'B'),
  value=c(1,2,3,6,8,9,1,2,3,6,8,9),
  test=c(1,1,1,1,1,1,2,2,2,2,2,2))

dcast(df, test ~ group, fun.aggregate = function(x){
  paste(round(mean(x),1)," (", round(sd(x),1),")", sep = "")
})
  test     A         B
1    1 2 (1) 7.7 (1.5)
2    2 2 (1) 7.7 (1.5)

【讨论】:

  • 仅供参考,您使用的是 reshape2 包中的dcast;可以加载那个包。
猜你喜欢
  • 2014-06-10
  • 1970-01-01
  • 2018-06-23
  • 2020-02-09
  • 1970-01-01
  • 1970-01-01
  • 2015-06-16
  • 2021-02-03
  • 2013-04-02
相关资源
最近更新 更多