R data.table：按（不同）组优化行操作的速度答案

【问题标题】：R data.table: optimize speed of row operations by (different) groupsR data.table：按（不同）组优化行操作的速度
【发布时间】：2021-01-15 03:46:26
【问题描述】：

因此，我的代码以长格式 data.table 的形式接收了这个庞大的数据集（可能有数千个条目），如下所示：

#sample DT
sample_size = 8
DT0 <- data.table(
  DATE = seq.Date(from = as.Date("2020/3/01"), by = "day", length.out = sample_size),
  BANANA = seq(30, by=0.060, length.out = sample_size),
  ORANGE = seq(5, by=0.035, length.out = sample_size),
  APPLE = seq(12, by=0.6, length.out = sample_size),
  LEMON = seq(10, by=0.01, length.out = sample_size),
  GRAPE = seq(0.5, by=0.13, length.out = sample_size)
)

DT <- melt(DT0, 
           id.vars = c("DATE"), 
           variable.name = "FRUIT",
           value.name = "PRICE")
setkeyv(DT, cols=c("FRUIT", "DATE"))

DT 正是我的数据现在的样子：

> DT
          DATE  FRUIT  PRICE
 1: 2020-03-01 BANANA 30.000
 2: 2020-03-02 BANANA 30.060
 3: 2020-03-03 BANANA 30.120
 4: 2020-03-04 BANANA 30.180
 5: 2020-03-05 BANANA 30.240
 6: 2020-03-06 BANANA 30.300
 7: 2020-03-07 BANANA 30.360
 8: 2020-03-08 BANANA 30.420
 9: 2020-03-01 ORANGE  5.000
10: 2020-03-02 ORANGE  5.035
11: 2020-03-03 ORANGE  5.070
12: 2020-03-04 ORANGE  5.105
13: 2020-03-05 ORANGE  5.140
14: 2020-03-06 ORANGE  5.175
15: 2020-03-07 ORANGE  5.210
16: 2020-03-08 ORANGE  5.245
17: 2020-03-01  APPLE 12.000
18: 2020-03-02  APPLE 12.600
19: 2020-03-03  APPLE 13.200
20: 2020-03-04  APPLE 13.800
21: 2020-03-05  APPLE 14.400
22: 2020-03-06  APPLE 15.000
23: 2020-03-07  APPLE 15.600
24: 2020-03-08  APPLE 16.200
25: 2020-03-01  LEMON 10.000
26: 2020-03-02  LEMON 10.010
27: 2020-03-03  LEMON 10.020
28: 2020-03-04  LEMON 10.030
29: 2020-03-05  LEMON 10.040
30: 2020-03-06  LEMON 10.050
31: 2020-03-07  LEMON 10.060
32: 2020-03-08  LEMON 10.070
33: 2020-03-01  GRAPE  0.500
34: 2020-03-02  GRAPE  0.630
35: 2020-03-03  GRAPE  0.760
36: 2020-03-04  GRAPE  0.890
37: 2020-03-05  GRAPE  1.020
38: 2020-03-06  GRAPE  1.150
39: 2020-03-07  GRAPE  1.280
40: 2020-03-08  GRAPE  1.410
          DATE  FRUIT  PRICE

现在，假设我需要在一个新列（“RESULT”）中计算 FRUIT 中每个项目的 PRICE 与一个常量指定水果的价格之间的差异（或任何其他更复杂的操作）（例如：GRAPE），每天。

为了帮助您形象化这个想法，RESULT 列将类似于这些操作的结果，每天：

结果 := PRICE BANANA - PRICE GRAPE
结果 := PRICE ORANGE - PRICE GRAPE
结果 := 价格苹果 - 价格葡萄
结果 := 价格香蕉 - 价格葡萄
结果 := PRICE LEMON - PRICE GRAPE
结果 := PRICE GRAPE - PRICE GRAPE

经过数小时的反复试验（但仍然不太了解我在做什么），这是我设法做到的：

#my try:
chosen_fruit <- "GRAPE"

setkey(DT, DATE)
DT[DT[FRUIT == chosen_fruit], RESULTS := PRICE - i.PRICE]

> DT
          DATE  FRUIT  PRICE RESULTS
 1: 2020-03-01 BANANA 30.000  29.500
 2: 2020-03-01 ORANGE  5.000   4.500
 3: 2020-03-01  APPLE 12.000  11.500
 4: 2020-03-01  LEMON 10.000   9.500
 5: 2020-03-01  GRAPE  0.500   0.000
 6: 2020-03-02 BANANA 30.060  29.430
 7: 2020-03-02 ORANGE  5.035   4.405
 8: 2020-03-02  APPLE 12.600  11.970
 9: 2020-03-02  LEMON 10.010   9.380
10: 2020-03-02  GRAPE  0.630   0.000
11: 2020-03-03 BANANA 30.120  29.360
12: 2020-03-03 ORANGE  5.070   4.310
13: 2020-03-03  APPLE 13.200  12.440
14: 2020-03-03  LEMON 10.020   9.260
15: 2020-03-03  GRAPE  0.760   0.000
16: 2020-03-04 BANANA 30.180  29.290
17: 2020-03-04 ORANGE  5.105   4.215
18: 2020-03-04  APPLE 13.800  12.910
19: 2020-03-04  LEMON 10.030   9.140
20: 2020-03-04  GRAPE  0.890   0.000
21: 2020-03-05 BANANA 30.240  29.220
22: 2020-03-05 ORANGE  5.140   4.120
23: 2020-03-05  APPLE 14.400  13.380
24: 2020-03-05  LEMON 10.040   9.020
25: 2020-03-05  GRAPE  1.020   0.000
26: 2020-03-06 BANANA 30.300  29.150
27: 2020-03-06 ORANGE  5.175   4.025
28: 2020-03-06  APPLE 15.000  13.850
29: 2020-03-06  LEMON 10.050   8.900
30: 2020-03-06  GRAPE  1.150   0.000
31: 2020-03-07 BANANA 30.360  29.080
32: 2020-03-07 ORANGE  5.210   3.930
33: 2020-03-07  APPLE 15.600  14.320
34: 2020-03-07  LEMON 10.060   8.780
35: 2020-03-07  GRAPE  1.280   0.000
36: 2020-03-08 BANANA 30.420  29.010
37: 2020-03-08 ORANGE  5.245   3.835
38: 2020-03-08  APPLE 16.200  14.790
39: 2020-03-08  LEMON 10.070   8.660
40: 2020-03-08  GRAPE  1.410   0.000
          DATE  FRUIT  PRICE RESULTS

我最终想要的输出：

setkey(DT, FRUIT)

> DT
          DATE  FRUIT  PRICE RESULTS
 1: 2020-03-01 BANANA 30.000  29.500
 2: 2020-03-02 BANANA 30.060  29.430
 3: 2020-03-03 BANANA 30.120  29.360
 4: 2020-03-04 BANANA 30.180  29.290
 5: 2020-03-05 BANANA 30.240  29.220
 6: 2020-03-06 BANANA 30.300  29.150
 7: 2020-03-07 BANANA 30.360  29.080
 8: 2020-03-08 BANANA 30.420  29.010
 9: 2020-03-01 ORANGE  5.000   4.500
10: 2020-03-02 ORANGE  5.035   4.405
11: 2020-03-03 ORANGE  5.070   4.310
12: 2020-03-04 ORANGE  5.105   4.215
13: 2020-03-05 ORANGE  5.140   4.120
14: 2020-03-06 ORANGE  5.175   4.025
15: 2020-03-07 ORANGE  5.210   3.930
16: 2020-03-08 ORANGE  5.245   3.835
17: 2020-03-01  APPLE 12.000  11.500
18: 2020-03-02  APPLE 12.600  11.970
19: 2020-03-03  APPLE 13.200  12.440
20: 2020-03-04  APPLE 13.800  12.910
21: 2020-03-05  APPLE 14.400  13.380
22: 2020-03-06  APPLE 15.000  13.850
23: 2020-03-07  APPLE 15.600  14.320
24: 2020-03-08  APPLE 16.200  14.790
25: 2020-03-01  LEMON 10.000   9.500
26: 2020-03-02  LEMON 10.010   9.380
27: 2020-03-03  LEMON 10.020   9.260
28: 2020-03-04  LEMON 10.030   9.140
29: 2020-03-05  LEMON 10.040   9.020
30: 2020-03-06  LEMON 10.050   8.900
31: 2020-03-07  LEMON 10.060   8.780
32: 2020-03-08  LEMON 10.070   8.660
33: 2020-03-01  GRAPE  0.500   0.000
34: 2020-03-02  GRAPE  0.630   0.000
35: 2020-03-03  GRAPE  0.760   0.000
36: 2020-03-04  GRAPE  0.890   0.000
37: 2020-03-05  GRAPE  1.020   0.000
38: 2020-03-06  GRAPE  1.150   0.000
39: 2020-03-07  GRAPE  1.280   0.000
40: 2020-03-08  GRAPE  1.410   0.000
          DATE  FRUIT  PRICE RESULTS

如您所见，不知何故，我能够达到目标。但这似乎并不理想。

我现在正在学习 R（以及一般的编程），所以我对这一切都很陌生，尤其是在尽可能优化代码方面（考虑这里的内存限制）。

对如何提高操作速度/性能或更好的方法有什么建议吗？非常感谢您！

【问题讨论】：

我认为这是一种非常合理的方式来执行你想要做的计算。您正在对列 FRUIT 和 DATE 执行连接，因为您之前为 DT 设置了键，并且默认情况下连接发生在键上。 PRICE.i 列是来自DT 子集副本的价格，因为它位于DT[i,j] 的i 位置。希望有人会来做一个基准测试，看看你的加入版本是否比 akrun 的 by = 版本更快。

标签： r optimization datatable data.table self-join

【解决方案1】：

在 OP 的代码中，我们不需要 == 一旦我们 set 密钥即第一个 setkey 就足够了，并在做 PRICE 的减法时按“日期”加入 on和i.PRICE

setkeyv(DT, cols=c("FRUIT", "DATE"))
DT[DT[.(chosen_fruit)],  RESULTS := PRICE - i.PRICE, on = .(DATE)]

或者另一种选择是按“日期”分组，从“水果”为“葡萄”的相应价格中减去“价格”

library(data.table)
DT[, RESULTS := PRICE - PRICE[FRUIT == 'GRAPE'], DATE]

-输出

DT
          DATE  FRUIT  PRICE RESULTS
 1: 2020-03-01 BANANA 30.000  29.500
 2: 2020-03-02 BANANA 30.060  29.430
 3: 2020-03-03 BANANA 30.120  29.360
 4: 2020-03-04 BANANA 30.180  29.290
 5: 2020-03-05 BANANA 30.240  29.220
 6: 2020-03-06 BANANA 30.300  29.150
 7: 2020-03-07 BANANA 30.360  29.080
 8: 2020-03-08 BANANA 30.420  29.010
 9: 2020-03-01 ORANGE  5.000   4.500
10: 2020-03-02 ORANGE  5.035   4.405
11: 2020-03-03 ORANGE  5.070   4.310
12: 2020-03-04 ORANGE  5.105   4.215
13: 2020-03-05 ORANGE  5.140   4.120
14: 2020-03-06 ORANGE  5.175   4.025
15: 2020-03-07 ORANGE  5.210   3.930
16: 2020-03-08 ORANGE  5.245   3.835
17: 2020-03-01  APPLE 12.000  11.500
18: 2020-03-02  APPLE 12.600  11.970
19: 2020-03-03  APPLE 13.200  12.440
20: 2020-03-04  APPLE 13.800  12.910
21: 2020-03-05  APPLE 14.400  13.380
22: 2020-03-06  APPLE 15.000  13.850
23: 2020-03-07  APPLE 15.600  14.320
24: 2020-03-08  APPLE 16.200  14.790
25: 2020-03-01  LEMON 10.000   9.500
26: 2020-03-02  LEMON 10.010   9.380
27: 2020-03-03  LEMON 10.020   9.260
28: 2020-03-04  LEMON 10.030   9.140
29: 2020-03-05  LEMON 10.040   9.020
30: 2020-03-06  LEMON 10.050   8.900
31: 2020-03-07  LEMON 10.060   8.780
32: 2020-03-08  LEMON 10.070   8.660
33: 2020-03-01  GRAPE  0.500   0.000
34: 2020-03-02  GRAPE  0.630   0.000
35: 2020-03-03  GRAPE  0.760   0.000
36: 2020-03-04  GRAPE  0.890   0.000
37: 2020-03-05  GRAPE  1.020   0.000
38: 2020-03-06  GRAPE  1.150   0.000
39: 2020-03-07  GRAPE  1.280   0.000
40: 2020-03-08  GRAPE  1.410   0.000

或者另一种选择是将dcast 转换为“宽”格式，然后进行减法

dt_wide <- dcast(DT, DATE ~ FRUIT, value.var = 'PRICE')
nm1 <- names(dt_wide)[-1]
dt_wide[, (nm1) := lapply(.SD, function(x) x - GRAPE), .SDcols = nm1]

基准测试

通过在构造输入数据时更改sample_size 在稍大的数据集上进行测试

sample_size <- 1000000
dim(DT)
#[1] 5000000       3



system.time(DT[DT[.(chosen_fruit)],  RESULTS := PRICE - i.PRICE, on = .(DATE)])
# user  system elapsed 
#  0.287   0.039   0.326 

system.time({     DT[DT[FRUIT == chosen_fruit], RESULTS := PRICE - i.PRICE, on = .(DATE)] })
#  user  system elapsed 
#  0.294   0.006   0.300 

system.time({
  setkey(DT, DATE)
  DT[DT[FRUIT == chosen_fruit], RESULTS := PRICE - i.PRICE]
  setkey(DT, FRUIT)
})
# user  system elapsed 
#  0.431   0.045   0.476 


system.time(DT[, RESULTS := PRICE - PRICE[FRUIT == 'GRAPE'], DATE])
#  user  system elapsed 
#  6.660   0.039   6.665 

system.time({
dt_wide <- dcast(DT, DATE ~ FRUIT, value.var = 'PRICE')
nm1 <- names(dt_wide)[-1]
dt_wide[, (nm1) := lapply(.SD, function(x) x - GRAPE), .SDcols = nm1]

})
# user  system elapsed 
#  0.868   0.060   0.926

【讨论】：

与OP的代码相比，这两种方式是否提高了速度？
@mt1022 你可以检查更新的基准
我很惊讶PRICE - PRICE[FRUIT == 'GRAPE'] 比其他方式慢得多。在您的基准测试中，OP 代码的执行时间稍长可能是由两个 setkey 操作引起的。除了使用DT[.(chosen_fruit)] 并不能提高速度。您可以尝试对 system.time({ DT[DT[FRUIT == chosen_fruit], RESULTS := PRICE - i.PRICE, on = .(DATE)] }) 进行基准测试。
@mt1022 在我的系统中，它显示0.294 与0.287。我会说 OP 不需要两个 setkey 操作，而是可以在我的代码中执行第一个选项
与有两个setkey 的那个相比，这几乎是一样的。效率是因为没有使用setkey。