【发布时间】:2019-06-16 21:19:30
【问题描述】:
像大多数人一样,我对 Hadley Wickham 以及他为 R 所做的工作印象深刻——所以我想我会将一些功能转移到他的 tidyverse...这一切的意义何在?
我的新 dplyr 函数比它们的基本等效函数慢得多 -- 我希望我做错了什么。我特别希望从理解non-standard-evaluation 所需的努力中获得一些回报。
那么,我做错了什么?为什么dplyr 这么慢?
一个例子:
require(microbenchmark)
require(dplyr)
df <- tibble(
a = 1:10,
b = c(1:5, 4:0),
c = 10:1)
addSpread_base <- function() {
df[['spread']] <- df[['a']] - df[['b']]
df
}
addSpread_dplyr <- function() df %>% mutate(spread := a - b)
all.equal(addSpread_base(), addSpread_dplyr())
microbenchmark(addSpread_base(), addSpread_dplyr(), times = 1e4)
计时结果:
Unit: microseconds
expr min lq mean median uq max neval
addSpread_base() 12.058 15.769 22.07805 24.58 26.435 2003.481 10000
addSpread_dplyr() 607.537 624.697 666.08964 631.19 636.291 41143.691 10000
因此,使用dplyr 函数转换数据需要大约 30 倍的时间——这肯定不是本意吗?
我认为这可能是一个太简单的案例——如果我们有一个更现实的案例,我们正在添加一个列并对数据进行子设置,dplyr 真的会大放异彩——但情况更糟。从下面的时间可以看出,这比基本方法慢了约 70 倍。
# mutate and substitute
addSpreadSub_base <- function(df, col1, col2) {
df[['spread']] <- df[['a']] - df[['b']]
df[, c(col1, col2, 'spread')]
}
addSpreadSub_dplyr <- function(df, col1, col2) {
var1 <- as.name(col1)
var2 <- as.name(col2)
qq <- quo(!!var1 - !!var2)
df %>%
mutate(spread := !!qq) %>%
select(!!var1, !!var2, spread)
}
all.equal(addSpreadSub_base(df, col1 = 'a', col2 = 'b'),
addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'))
microbenchmark(addSpreadSub_base(df, col1 = 'a', col2 = 'b'),
addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'),
times = 1e4)
结果:
Unit: microseconds
expr min lq mean median uq max neval
addSpreadSub_base(df, col1 = "a", col2 = "b") 22.725 30.610 44.3874 45.450 53.798 2024.35 10000
addSpreadSub_dplyr(df, col1 = "a", col2 = "b") 2748.757 2837.337 3011.1982 2859.598 2904.583 44207.81 10000
【问题讨论】:
-
你使用data.table吗?对我来说,它非常有用且快速。最好的!
-
读起来不错:stackoverflow.com/questions/21435339/…。 tldr 是:tidyverse 是为干净的代码而设计的,不一定是为了更快的代码..
-
@RLave 具有“干净代码”的特定定义。
-
@ricardo 只需比较两种方法之间的函数调用次数即可。如果您编写关心微秒到毫秒的低级函数,您可能不应该使用 tidyverse。
-
@ricardo 旁注:我很惊讶您在
mutate中使用了:=,并且它起作用了。=不是标准吗?
标签: r performance dplyr