【发布时间】:2013-05-13 20:44:12
【问题描述】:
我一直在从事一些需要我进行大量列表子集化的项目,在分析代码时,我意识到对象[["nameHere"]] 对列表子集化的方法通常比 object$ 快nameHere 方法。
例如,如果我们创建一个包含命名组件的列表:
a.long.list <- as.list(rep(1:1000))
names(a.long.list) <- paste0("something",1:1000)
为什么会这样:
system.time (
for (i in 1:10000) {
a.long.list[["something997"]]
}
)
user system elapsed
0.15 0.00 0.16
比这更快:
system.time (
for (i in 1:10000) {
a.long.list$something997
}
)
user system elapsed
0.23 0.00 0.23
我的问题只是这种行为是否普遍适用,我应该尽可能避免使用 $ 子集,还是最有效的选择取决于其他一些因素?
【问题讨论】:
-
+1。我怀疑它与
$符号的部分匹配有关。假设你有my_list <- list("a" = 1, "ace" = 2)。如果你尝试my_list$ac,它会得到ace,但如果你尝试my_list[["ac"]],它什么也找不到。 -
不排除部分匹配理论,但我希望完整的答案将包括为什么在 OP 的示例中将
exact = FALSE添加到[[不会降低性能。 -
似乎值得一提的是
$和[[是由两个完全不同的C 函数实现的(都在src/main/subset.c中)。对于$,相关函数是do_subset3,它又调用R_subset3_dflt。[[使用另一个函数do_subset2,它又调用do_subset2_dflt。 -
do_subset2前面的注释简单地指出:“[[ 子集运算符。它需要很快。” -
还可能值得一提的是 R 3.0.0 中的最新更改之一:“在数据帧上使用 $ 运算符时的部分匹配现在会引发警告,并且将来可能会失效。如果部分匹配是打算用 foo[["bar", exact = FALSE]] 替换 foo$bar。"
标签: performance r list subset