【发布时间】:2017-09-26 08:58:10
【问题描述】:
当所需插值点与可用数据相比稀疏时,进行线性插值的最有效方法是什么?我有一个很长的数据框,其中包含许多列,其中一个表示时间戳,其余的是变量,我有兴趣在极少数时间戳处进行插值。例如,考虑两个变量的情况:
microbenchmark::microbenchmark(approx(1:2, 1:2, 1.5)$y)
# Unit: microseconds
# expr min lq mean median uq max neval
# ... 39.629 41.3395 46.80514 42.195 52.8865 138.558 100
microbenchmark::microbenchmark(approx(seq_len(1e6), seq_len(1e6), 1.5)$y)
# Unit: milliseconds
# expr min lq mean median uq max neval
# ... 129.5733 231.0047 229.3459 236.3845 247.3096 369.4621 100
我们看到,虽然只需要一个插值(t = 1.5),但增加对的数量(x, y) 会导致运行时间出现几个数量级的差异。
另一个例子,这次是一个数据表。
library(data.table)
tmp_dt <- data.table(time = seq_len(1e7), a = seq_len(1e7), b = seq_len(1e7), c = seq_len(1e7))
运行tmp_dt[, lapply(.SD, function(col) {approx(time, col, 1.5)$y}), .SDcols = c("a", "b", "c")] 会生成一个单行数据表,但需要一段时间。
我认为通过删除数据表中不需要插值的所有行必须获得一些效率。
【问题讨论】:
-
如果线性插值仅使用任一方向上最近的两个点(?),那么您可以进行两个滚动连接或排序并使用 findInterval 找到这两个点并进行计算,我想。对于滚动连接,您不能在整数上加入浮点数,但是...
-
线性插值只需要任一方向上最近的两个点。
标签: r data.table