【发布时间】:2013-02-13 14:41:56
【问题描述】:
我正在尝试重写一个我已经使用了一段时间的函数。简化为:
dat = data.table(dataframe)
getRecentRow <- function(data) {
#Get most recent row (with highest time)
row = data[order(-Time)][1]
return(row)
}
# Run getRecentRow on each chunk given an ID
output = dat[,getRecentRow(.SD), by=ID]
此功能为我提供每个 ID 的最新条目(因此具有最高的时间)。但是,对于每个 ID,可以有多个条目。这些条目可以用 SUBID 来区分。我想更深入地挖掘一个级别,而不是获取每个 ID 的最新条目,我想要每个 SUBID 的最新条目。由于 SUBID 不是唯一的,因此还必须考虑 ID。因此,我想要每个 ID、每个 SUBID 的最新条目。
总结:getRecentRow() 函数的输入不应按 ID 进行子集,而应按 ID 和 SUBID。
我试过了:
dat = data.table(dataframe)
getRecentRow <- function(data) {
#Get most recent row (with highest time)
row = data[order(-Time)][1]
return(row)
}
# Run getRecentRow on each chunk given an ID
output = dat[,getRecentRow(.SD), by=list(ID, SUBID)]
但这会返回不正确的输出,输出更多所需的行。我认为重新编写by=list(ID, SUBID) 应该是一个简单的解决方法,但我不知道怎么做。
【问题讨论】:
-
为什么
output = dat[,max(Time), by=ID]在您的情况下不起作用?这也应该为您提供每个 ID 的最高时间。 -
另外,如果你想获得
Time的最高值的行号,你可以写dat[, .I[which.max(Time)], by="ID"]。 -
也许
dat[,.SD[which.max(Time)],by="ID,SUBID"]。 -
我们需要一些示例数据来说明问题。
-
请构建一个答案并将此问题从其孤立状态中拯救出来。
标签: r data.table