data.table - 选择组中的前 n 行 [重复]答案

【问题标题】：data.table - select first n rows within group [duplicate]data.table - 选择组中的前 n 行 [重复]
【发布时间】：2016-04-17 14:56:03
【问题描述】：

尽管很简单，但我不知道有一个data.table 解决方案来选择数据表中组中的前 n 行。你能帮帮我吗？

【问题讨论】：

这非常接近：stackoverflow.com/questions/10110616/…

标签： r data.table

【解决方案1】：

作为替代方案：

dt[, .SD[1:3], cyl]

当您查看示例数据集的速度时，head 方法与.I method of @eddi 相当。与microbenchmark 包比较：

microbenchmark(head = dt[, head(.SD, 3), cyl],
               SD = dt[, .SD[1:3], cyl], 
               I = dt[dt[, .I[1:3], cyl]$V1],
               times = 10, unit = "relative")

结果：

Unit: relative
 expr      min       lq     mean   median       uq       max neval cld
 head 1.000000 1.000000 1.000000 1.000000 1.000000 1.0000000    10  a 
   SD 2.156562 2.319538 2.306065 2.365190 2.318540 2.1908401    10   b
    I 1.001810 1.029511 1.007371 1.018514 1.016583 0.9442973    10  a

但是，data.table 是专门为大型数据集设计的。所以，再次运行这个比较：

# creating a 30 million dataset
largeDT <- dt[,.SD[sample(.N, 1e7, replace = TRUE)], cyl]
# running the benchmark on the large dataset
microbenchmark(head = largeDT[, head(.SD, 3), cyl],
               SD = largeDT[, .SD[1:3], cyl], 
               I = largeDT[largeDT[, .I[1:3], cyl]$V1],
               times = 10, unit = "relative")

结果：

Unit: relative
 expr      min       lq     mean   median       uq     max neval cld
 head 2.279753 2.194702 2.221330 2.177774 2.276986 2.33876    10   b
   SD 2.060959 2.187486 2.312009 2.236548 2.568240 2.55462    10   b
    I 1.000000 1.000000 1.000000 1.000000 1.000000 1.00000    10  a

现在.I 方法显然是最快的。

2016 年 2 月 12 日更新：

使用 data.table 包的最新开发版本，.I 方法仍然胜出。 .SD 方法或head() 方法是否更快似乎取决于数据集的大小。现在基准给出：

Unit: relative
 expr      min       lq     mean   median       uq      max neval cld
 head 2.093240 3.166974 3.473216 3.771612 4.136458 3.052213    10   b
   SD 1.840916 1.939864 2.658159 2.786055 3.112038 3.411113    10   b
    I 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000    10  a

但是，如果数据集稍微小一些（但仍然很大），几率会发生变化：

largeDT2 <- dt[,.SD[sample(.N, 1e6, replace = TRUE)], cyl]

基准测试现在稍微支持head 方法而不是.SD 方法：

Unit: relative
 expr      min       lq     mean   median       uq      max neval cld
 head 1.808732 1.917790 2.087754 1.902117 2.340030 2.441812    10   b
   SD 1.923151 1.937828 2.150168 2.040428 2.413649 2.436297    10   b
    I 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000    10  a

【讨论】：

这是用 1.9.7 完成的吗？我知道最近对.SD 的一些操作进行了优化...
@MichaelChirico 是的，但我使用的是相对较旧的 1.9.7 版本（在引入 rowid 后不久）。所以，这取决于最近的时间;-)
我认为相关的提交是在 11 月初左右
性能可能取决于cyl的基数
@Jaap 感谢您再次进行测试。我用 setDTthreads(1) 进行了测试，但仍然没有找到你的结果。我认为@jangorecki 是对的，结果很大程度上取决于分组变量的基数。当基数小于 6 时，.I 对我有利，否则，.SD 和 head 更快。

【解决方案2】：

我们可以使用head 和.SD

library(data.table)

dt <- data.table(mtcars)

> dt[, head(.SD, 3), by = "cyl"]

   cyl  mpg  disp  hp drat    wt  qsec vs am gear carb
1:   6 21.0 160.0 110 3.90 2.620 16.46  0  1    4    4
2:   6 21.0 160.0 110 3.90 2.875 17.02  0  1    4    4
3:   6 21.4 258.0 110 3.08 3.215 19.44  1  0    3    1
4:   4 22.8 108.0  93 3.85 2.320 18.61  1  1    4    1
5:   4 24.4 146.7  62 3.69 3.190 20.00  1  0    4    2
6:   4 22.8 140.8  95 3.92 3.150 22.90  1  0    4    2
7:   8 18.7 360.0 175 3.15 3.440 17.02  0  0    3    2
8:   8 14.3 360.0 245 3.21 3.570 15.84  0  0    3    4
9:   8 16.4 275.8 180 3.07 4.070 17.40  0  0    3    3

【讨论】：

请注意，实际上head.data.table (getAnywhere("head.data.table")) 只是调用@Jaap 答案的（稍微更强大的）版本。