按组汇总data.table答案

【问题标题】：Summarize data.table by group按组汇总data.table
【发布时间】：2016-07-31 06:48:47
【问题描述】：

我正在使用 R 中的一个巨大的数据表，其中包含由不同来源获取的多个位置的每月温度测量值。

数据集如下所示：

library(data.table)

# Generate random data:
loc <- 1:10
dates <- seq(as.Date("2000-01-01"), as.Date("2004-12-31"), by="month")
mods <- c("A","B", "C", "D", "E")
temp <- runif(length(loc)*length(dates)*length(mods), min=0, max=30)
df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp)

所以基本上，对于位置 1，我有模型 A 从 2000 年 1 月到 2004 年 12 月进行的测量。然后，我有模型 B 进行的测量。依此类推，模型 C、D 和 E。然后，依此类推位置 2 到位置 10。

我需要做的是，而不是有五个不同的温度测量值（来自模型），而是取所有模型的平均温度。

因此，对于每个地点和每个日期，我将只进行一次温度测量而不是五次（这将是多模型平均值）。

我试过了：

df2 <- df[, Mean:=mean(Temperature), by=list(Model, Location, Date)]

这并没有像我预期的那样工作。我至少希望生成的数据表是原始表行数的 1/5，因为我将五个测量值汇总为一个。

我做错了什么？

【问题讨论】：

尝试使用df2 <- df[, .(mean = mean(Temperature)), by=list(Model, Location, Date)]
你应该阅读包介绍。第 #2 节是关于聚合的，并说明了 Kunal 的建议：rawgit.com/wiki/Rdatatable/data.table/vignettes/…

标签： r data.table aggregate mean

【解决方案1】：

如果我们使用data.table，则可以使用CJ

 CJ(Location=loc, date= dates,Model= mods)[, 
         Temperature:= temp][, .(Mean = mean(Temperature)), by = .(Location, date)]

【讨论】：

我想知道...如何将您的代码应用于原始问题中的数据表df？
@thiagoveloso CJ 部分提供 data.table 输出。即CJ(Location=loc, date= dates,Model= mods)
[, Temperature:= temp] 部分呢？抱歉问了，但我只是想把它做对......
@thiagoveloso 这将在data.table 中创建“温度”列。如果您查看其他帖子，expand.grid 也会将“温度”列留在外面。 CJ 部分的作用类似于 expand.grid
好的，现在我明白了。非常感谢。

【解决方案2】：

我认为您生成的测试数据不正确。函数expand.grid() 采用所有参数的笛卡尔积。我不确定您为什么在 expand.grid() 调用中包含 Temperature=temp 参数；复制每个组合键的每个温度值，从而生成一个包含 900 万行的 data.table（这是(10*60*5)^2）。我认为您希望每个键都有一个温度值，这应该导致 10*60*5 行：

df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp);
df;
##       Location       Date Model Temperature
##    1:        1 2000-01-01     A    2.469751
##    2:        2 2000-01-01     A   16.103135
##    3:        3 2000-01-01     A    7.147051
##    4:        4 2000-01-01     A   10.301937
##    5:        5 2000-01-01     A   16.760238
##   ---
## 2996:        6 2004-12-01     E   26.293968
## 2997:        7 2004-12-01     E    8.446528
## 2998:        8 2004-12-01     E   29.003001
## 2999:        9 2004-12-01     E   12.076765
## 3000:       10 2004-12-01     E   28.410980

如果这是正确的，您可以使用以下方法跨模型生成均值：

df[,.(Mean=mean(Temperature)),.(Location,Date)];
##      Location       Date      Mean
##   1:        1 2000-01-01  9.498497
##   2:        2 2000-01-01 11.744622
##   3:        3 2000-01-01 15.691228
##   4:        4 2000-01-01 11.457154
##   5:        5 2000-01-01  8.897931
##  ---
## 596:        6 2004-12-01 17.587000
## 597:        7 2004-12-01 19.555963
## 598:        8 2004-12-01 15.710465
## 599:        9 2004-12-01 15.322790
## 600:       10 2004-12-01 20.240392

请注意，:= 运算符实际上并不聚合。它只添加、修改或删除原始 data.table 中的列。可以使用聚合计算的重复项添加新列（或覆盖旧列）（例如，参见 http://www.r-bloggers.com/two-of-my-favorite-data-table-features/），但这不是您想要的。

一般来说，当您聚合一个数据表时，您必然会生成一个新表，该表减少到每个聚合键一行。 := 运算符不这样做。

相反，我们需要对 data.table 运行正常的索引操作，按所需的聚合键（将自动包含在输出 data.table 中）进行分组，并添加j 参数，这将每组评估一次。结果将是原始表的简化版本，所有j 参数评估的结果与其各自的聚合键合并。由于我们的 j 参数为每个组生成一个标量值，因此我们的结果将是每个 Location/Date 聚合键一行。

【讨论】：

为什么你的by= 不包含“Model”？
OP 表示他希望对每个位置和日期进行一次温度测量，代表该位置/日期组合的所有模型的平均值。我们不应该按模型分组。
@bgoldst 非常感谢您的回答。事实上，我在模拟我的数据时犯了一个错误。您建议的命令产生了我预期的输出，您的解释帮助我更好地理解数据表是如何工作的。我非常感谢它。
您关于:= 运算符的注释特别有用。
我们可以就地聚合表格吗？还是必须创建一个新表？是不是意味着它会很慢，因为 data.table 的速度来自它的就地计算？