【问题标题】:How to call a function that returns multiple rows and columns in a data.table?如何调用在data.table中返回多行多列的函数?
【发布时间】:2013-07-28 14:54:43
【问题描述】:

我想在 data.table 中调用一个函数来计算一组汇总统计信息,如下所示:

summ.stats <- function(vec) {
    list(
         Min = min(vec),
         Mean = mean(vec),
         S.D. = sd(vec),
         Median = median(vec),
         Max = max(vec))
}

我想在jdata.table 中调用它:

DT <- data.table(a=c(1,2,3,1,2,3),b=c(1,4,3,2,1,4),c=c(2,3,4,5,2,1))

DT[, summ.stats(b), by=a]

这很好,我明白了:

   a Min Mean      S.D. Median Max
1: 1   1  1.5 0.7071068    1.5   2
2: 2   1  2.5 2.1213203    2.5   4
3: 3   3  3.5 0.7071068    3.5   4

但我有兴趣将多个变量传递给 summ.stats。例如:

DT[, summ.stats(b, c), by=a]

我想得到类似的东西:

   a Var Min Mean      S.D. Median Max
1: 1   b   1  1.5 0.7071068    1.5   2
2: 2   b   1  2.5 2.1213203    2.5   4
3: 3   b   3  3.5 0.7071068    3.5   4
4: 1   c   2  3.5 2.1213203    3.5   5
5: 2   c   2  2.5 0.7071068    2.5   3
6: 3   c   1  2.5 2.1213203    2.5   4

最好的方法是什么?

【问题讨论】:

    标签: r statistics data.table


    【解决方案1】:

    如果不显式重塑为长格式,您可以执行类似的操作

    rbindlist(lapply(c('b','c'), function(x) data.table(var = x, DT[,summ.stats(get(x)),by=a])))
    
    
    
    #    var a Min Mean      S.D. Median Max
    # 1:   b 1   1  1.5 0.7071068    1.5   2
    # 2:   b 2   1  2.5 2.1213203    2.5   4
    # 3:   b 3   3  3.5 0.7071068    3.5   4
    # 4:   c 1   2  3.5 2.1213203    3.5   5
    # 5:   c 2   2  2.5 0.7071068    2.5   3
    # 6:   c 3   1  2.5 2.1213203    2.5   4
    

    如果您reshape 数据为长格式

    reshape(DT, direction = 'long', 
                varying = list(value = c('b','c')), 
                times = c('b','c'))[,summ.stats(b), by = list(a, Var = time)]
    

    也可以。


    您可以使用来自 plyr 的 ldply,但对函数稍作重新定义,效率会降低

    summ.stats2 <- function(vec) {
        data.table(
             Min = min(vec),
             Mean = mean(vec),
             S.D. = sd(vec),
             Median = median(vec),
             Max = max(vec))
    }
    library(plyr)
    DT[, ldply(lapply(.SD, summ.stats2)),by =a]
    

    【讨论】:

    • 谢谢。但是通过这种方法,我将得到两列(b 和 c)而不是 5 列(Min、Mean、S.D.、Median 和 Max)。我想要与函数summ.stats 返回的列一样多的列。有没有办法“转置”这些子矩阵?
    【解决方案2】:

    或者,您可以按如下方式修改您的函数:

    summ.stats <- function(vec) {
        list(
            Var = names(vec),
             Min = sapply(vec, min),
             Mean = sapply(vec, mean),
             S.D. = sapply(vec, sd),
             Median = sapply(vec, median),
             Max = sapply(vec, max))
    }
    
    DT[, summ.stats(.SD), by=a] # no need for as.list(.SD) as Roger mentions
       a Var Min Mean      S.D. Median Max
    1: 1   b   1  1.5 0.7071068    1.5   2
    2: 1   c   2  3.5 2.1213203    3.5   5
    3: 2   b   1  2.5 2.1213203    2.5   4
    4: 2   c   2  2.5 0.7071068    2.5   3
    5: 3   b   3  3.5 0.7071068    3.5   4
    6: 3   c   1  2.5 2.1213203    2.5   4
    

    【讨论】:

    • 这是一个更简单的解决方案,更符合我的预期。但我想我们可以删除as.list 函数,不是吗?
    • @RogerBill,是的,你是对的。 sapplylapply 在内部首先转换为 list
    猜你喜欢
    • 2021-06-27
    • 1970-01-01
    • 1970-01-01
    • 2017-04-28
    • 1970-01-01
    • 2021-12-12
    • 1970-01-01
    • 2012-07-03
    相关资源
    最近更新 更多