【发布时间】:2019-10-04 07:32:15
【问题描述】:
我有许多大型(300k - 1M 行)数据帧,我试图通过循环遍历数据帧 (df_i) 来附加值,并且对于每个数据帧,循环遍历行并询问第二个中的值是什么数据框是 (do2) 在匹配的纬度、经度、月份和深度。 Lat/lon/month 将完全匹配,深度比较棘手,因为 do2 有 57 列用于增加深度箱中的值:
我的逐行循环代码的核心是一个 3-ands 行子集和一个列子集:
for (j in 1:nrow(df_i)) {
df_i[j,"DO2"] <- do2[do2$Latitude == df_i[j,"latbin"] &
do2$Longitude == df_i[j,"lonbin"] &
do2$Month == month(df_i[j,"DateTimeUTCmin5"]),
which.min(abs(depthbins - df_i[j, "Depth.m."])) + 3]
}
这可行,但速度很慢。我知道它可以加快速度,但是我的并行化工作一直在碰壁,而且并行调试/回溯要困难得多。我在阅读this 后尝试了 FBM,但得到了
值必须是唯一的或者是 x[i, j] 的维度
大约有 200k 行。我了解 data.table indexes are fast,所以可能像 Frank's comment here 这样的东西可能会起作用,也许是 data.table 中的多行子集?但大概这与我现有的解决方案是相同的方法(因为我还需要子集/查找列),只是可能更快一点?
有人知道更聪明的方法吗?我以前对 apply 函数感到困惑,但如果那里有什么有用的东西我不会感到惊讶?
提前致谢。
可重现(简化月份,添加深度箱,之前省略):
depthbins <- c(0,5,10,15,20,25,50,75,100,125,150,200,250,300,350,400)
df_i <- data.frame(latbin = c(-77.5, -78, -78.5),
lonbin = c(-178.5, -177.5, -176.5),
month = c(1,2,3),
Depth.m. = c(130,120,110))
do2 <- tibble(Month = c(1,1,1),
Latitude = c(-78,-78,-79),
Longitude = c(-178.5, -177.5, -177.5),
"0" = c(214, 223, 345),
"5" = c(123,234,345),
"10" = c(345,456,567))
最终编辑:对 Marius 代码的一些调整:
do2 %<>% gather(.vars = colnames(do2)[4:length(colnames(do2))],
key = "depbin", value = "DO2")
do2$depbin <- as.numeric(do2$depbin)
depthbins <- sort(unique(do2$depbin))
df_i$depbin = sapply(df_i$Depth.m., function(d) depthbins[which.min(abs(depthbins - d))])
df_i %<>% left_join(do2, by = c("Month" = "Month",
"latbin" = "Latitude",
"lonbin" = "Longitude",
"depbin" = "depbin")) %>%
select(-Month, -latbin, -lonbin, -depbin)
【问题讨论】:
-
您能否提供
df_i、do2和depthbins的可重现示例?它们只需每行几行,并带有几个深度箱。我认为这绝对可以加快速度,使用诸如合并之类的东西(由于Depth.m的匹配可能是模糊连接),而不必使用任何并行处理。 -
另外,与
Depth.m匹配,您是否只是通过与bin 的中点进行比较来寻找Depth.m值所在的bin?那么5 <= Depth.m < 10的任何值都与5bin 匹配吗? -
谢谢马吕斯。补充道。 Depth.m 匹配:我使用了从 df_i 深度到 depthbin 值的最小距离来生成索引,但现在考虑那条线,它与 bin 值有关,它是 bin 的开始而不是中点,所以可能我需要改善这一点!
-
编辑:depthbins 代码确实有效,假设值取自这些 depthbins 深度点,代码将 df_i 深度与最近的 depthbins 深度对齐,这是正确的。应该知道是对的,因为不是我自己写的!!
-
更多想法:可能我可以将多个深度列收集到 1 (r4ds.had.co.nz/tidy-data.html#gathering),将 do2 从 49128*60 更改为 2800296*4。这将使其大 3.8 倍,但可能会促进标准的仅列查找/匹配/索引/连接操作。此外,我可以事先用 depthbin 查找替换深度,以从循环中删除计算...
标签: r indexing parallel-processing match lookup