【发布时间】:2013-05-28 17:40:58
【问题描述】:
在我的工作中,我曾经有几个表(客户详细信息、交易记录等)。由于其中一些非常大(数百万行),我最近切换到data.table 包(感谢 Matthew)。但是,其中一些非常小(几百行和 4/5 列)并且被多次调用。因此,我开始考虑 检索 数据中的[.data.table 开销,而不是像?set 中已经清楚描述的那样设置()值,其中,无论表的大小,一项都设置在 2 左右微秒(取决于 CPU)。
但是,它似乎不存在与set 等效的方法,用于从知道确切行和列的data.table 获取值。一种 loopable [.data.table.
library(data.table)
library(microbenchmark)
m = matrix(1,nrow=100000,ncol=100)
DF = as.data.frame(m)
DT = as.data.table(m) # same data used in ?set
> microbenchmark(DF[3450,1] , DT[3450, V1], times=1000) # much more overhead in DT
Unit: microseconds
expr min lq median uq max neval
DF[3450, 1] 32.745 36.166 40.5645 43.497 193.533 1000
DT[3450, V1] 788.791 803.453 813.2270 832.287 5826.982 1000
> microbenchmark(DF$V1[3450], DT[3450, 1, with=F], times=1000) # using atomic vector and
# removing part of DT overhead
Unit: microseconds
expr min lq median uq max neval
DF$V1[3450] 2.933 3.910 5.865 6.354 36.166 1000
DT[3450, 1, with = F] 297.629 303.494 305.938 309.359 1878.632 1000
> microbenchmark(DF$V1[3450], DT$V1[3450], times=1000) # using only atomic vectors
Unit: microseconds
expr min lq median uq max neval
DF$V1[3450] 2.933 2.933 3.421 3.422 40.565 1000 # DF seems still a bit faster (23%)
DT$V1[3450] 3.910 3.911 4.399 4.399 16.128 1000
最后一种方法确实是多次快速检索单个元素的最佳方法。但是,set 更快
> microbenchmark(set(DT,1L,1L,5L), times=1000)
Unit: microseconds
expr min lq median uq max neval
set(DT, 1L, 1L, 5L) 1.955 1.956 2.444 2.444 24.926 1000
问题是:如果我们可以set 2.444 微秒内的值应该不可能得到更小(或至少相似)的值多少时间?谢谢。
编辑: 按照建议添加另外两个选项:
> microbenchmark(`[.data.frame`(DT,3450,1), DT[["V1"]][3450], times=1000)
Unit: microseconds
expr min lq median uq max neval
`[.data.frame`(DT, 3450, 1) 46.428 47.895 48.383 48.872 2165.509 1000
DT[["V1"]][3450] 20.038 21.504 23.459 24.437 116.316 1000
不幸的是,这并不比之前的尝试快。
【问题讨论】:
-
但我有点怀疑您认为需要重复子集。这通常意味着您可以通过更改算法进行优化。
-
@Arun @Roland 感谢大家的关注。关于罗兰的观点,我想说他在大多数情况下都是对的。即使对我来说意味着重新设计整个解决方案。然而,我的问题正是你在最后一行读到的,这也是基于 M Dowle 的想法,即拥有一个“可循环”
:=,即set -
+1。对于您的用例(“几百行和 4/5 列”,这应该占用少量内存),也许您可以将小型 data.tables 的副本存储为矩阵,并在您需要时使用后者访问元素...?在我的电脑上,
m[3450,1]仍然比DT$V1[3450]快约 10 倍;我认为除了矩阵之外,您将无法实现这种性能。另一方面,矩阵中的每一列都需要具有相同的类... -
试试
.subset2(DT, "V1")[3450]-.subset2是[[的内部版本,它不进行 S3 调度,而且速度更快。 -
@hadley 非常感谢。您的评论确实是答案。你为什么不在下面写下你的解决方案?谢谢。
标签: performance r dataframe data.table