【问题标题】:Aggregating across list of dataframes and storing all results跨数据框列表聚合并存储所有结果
【发布时间】:2017-08-04 18:57:41
【问题描述】:

我有一个包含 9 个数据帧的列表,每个数据帧大约有 100 行和 5-6 列。

我想基于所有数据帧中另一个 col 中指定的组来聚合 col 中的值,并将所有结果存储在单独的数据帧中。为了阐明,考虑一个列表

    [[1]]  
    Date  Group  Age
    Nov     A    13
    Nov     A    14
    Nov     B    9
    Nov     D    10
    [[2]]
    Date  Group  Age
    Dec     C    11
    Dec     C    12
    Dec     E    10

我的代码如下

for (i in 1:length(list)){
x<-aggregate(list[[i]]$Age~list[[i]]$Group, list[[i]], sum)
x<-rbind(x)
}

但最后,x 仅包含数据帧 2 的聚合结果(因为 i =2)而不是数据帧 1 的聚合结果,尽管我正在尝试绑定结果。

非常感谢任何帮助。

【问题讨论】:

  • 当您重复循环时,您将覆盖x。您应该将中间结果 (x) 保存在一个空列表中,然后在循环外部执行 new_list[[i]] &lt;- x 进行初始化,然后再合并。或者你可以像x &lt;- aggregate...; z &lt;- rbind(z, x)一样在循环中增加你的结果(z也应该在循环之外初始化为一个空的data.frame)
  • 它可以在没有for 循环的情况下完成。使用lapply 聚合您的列表,然后调用rbind 他们:类似于:do.call(rbind,lapply(list,function(x)aggregate(x$Age~x$Group,x, sum)))

标签: r dataframe aggregate


【解决方案1】:

在 R 中,有许多高效实现的函数有助于避免编写 for 循环的麻烦。

In his comment,S Rivero 建议使用 lapply() 而不是 for 循环,稍后再使用 rbind() 聚合:

do.call(rbind, lapply(dflist, function(x) aggregate(Age ~ Group, x, sum)))

我的建议是先合并data.frames,然后使用data.table计算聚合:

library(data.table)
rbindlist(dflist)[, sum(Age), by = Group]
   Group V1
1:     A 27
2:     B  9
3:     D 10
4:     C 23
5:     E 10

数据

dflist <- list(structure(list(Date = c("Nov", "Nov", "Nov", "Nov"), Group = c("A", 
"A", "B", "D"), Age = c(13L, 14L, 9L, 10L)), .Names = c("Date", 
"Group", "Age"), row.names = c(NA, -4L), class = "data.frame"), 
    structure(list(Date = c("Dec", "Dec", "Dec"), Group = c("C", 
    "C", "E"), Age = c(11L, 12L, 10L)), .Names = c("Date", "Group", 
    "Age"), row.names = c(NA, -3L), class = "data.frame"))

【讨论】:

    猜你喜欢
    • 2021-07-28
    • 2021-12-12
    • 1970-01-01
    • 1970-01-01
    • 2020-11-27
    • 1970-01-01
    • 1970-01-01
    • 2014-10-22
    • 1970-01-01
    相关资源
    最近更新 更多