【问题标题】:Why is dplyr so slow?为什么 dplyr 这么慢?
【发布时间】:2019-06-16 21:19:30
【问题描述】:

像大多数人一样,我对 Hadley Wickham 以及他为 R 所做的工作印象深刻——所以我想我会将一些功能转移到他的 tidyverse...这一切的意义何在?

我的新 dplyr 函数比它们的基本等效函数慢得多 -- 我希望我做错了什么。我特别希望从理解non-standard-evaluation 所需的努力中获得一些回报。

那么,我做错了什么?为什么dplyr 这么慢?

一个例子:

require(microbenchmark)
require(dplyr)

df <- tibble(
             a = 1:10,
             b = c(1:5, 4:0),
             c = 10:1)

addSpread_base <- function() {
    df[['spread']] <- df[['a']] - df[['b']]
    df
}

addSpread_dplyr <- function() df %>% mutate(spread := a - b)

all.equal(addSpread_base(), addSpread_dplyr())

microbenchmark(addSpread_base(), addSpread_dplyr(), times = 1e4)

计时结果:

Unit: microseconds
              expr     min      lq      mean median      uq       max neval
  addSpread_base()  12.058  15.769  22.07805  24.58  26.435  2003.481 10000
 addSpread_dplyr() 607.537 624.697 666.08964 631.19 636.291 41143.691 10000

因此,使用dplyr 函数转换数据需要大约 30 倍的时间——这肯定不是本意吗?

我认为这可能是一个太简单的案例——如果我们有一个更现实的案例,我们正在添加一个列并对数据进行子设置,dplyr 真的会大放异彩——但情况更糟。从下面的时间可以看出,这比基本方法慢了约 70 倍。

# mutate and substitute
addSpreadSub_base <- function(df, col1, col2) {
    df[['spread']] <- df[['a']] - df[['b']]
    df[, c(col1, col2, 'spread')]
}

addSpreadSub_dplyr <- function(df, col1, col2) {
    var1 <- as.name(col1)
    var2 <- as.name(col2)
    qq <- quo(!!var1 - !!var2)
    df %>% 
        mutate(spread := !!qq) %>% 
        select(!!var1, !!var2, spread)
}

all.equal(addSpreadSub_base(df, col1 = 'a', col2 = 'b'), 
          addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'))

microbenchmark(addSpreadSub_base(df, col1 = 'a', col2 = 'b'), 
               addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'), 
               times = 1e4)

结果:

Unit: microseconds
                                           expr      min       lq      mean   median       uq      max neval
  addSpreadSub_base(df, col1 = "a", col2 = "b")   22.725   30.610   44.3874   45.450   53.798  2024.35 10000
 addSpreadSub_dplyr(df, col1 = "a", col2 = "b") 2748.757 2837.337 3011.1982 2859.598 2904.583 44207.81 10000

【问题讨论】:

  • 你使用data.table吗?对我来说,它非常有用且快速。最好的!
  • 读起来不错:stackoverflow.com/questions/21435339/…。 tldr 是:tidyverse 是为干净的代码而设计的,不一定是为了更快的代码..
  • @RLave 具有“干净代码”的特定定义。
  • @ricardo 只需比较两种方法之间的函数调用次数即可。如果您编写关心微秒到毫秒的低级函数,您可能不应该使用 tidyverse。
  • @ricardo 旁注:我很惊讶您在mutate 中使用了:=,并且它起作用了。 = 不是标准吗?

标签: r performance dplyr


【解决方案1】:

这些是微秒,您的数据集有 10 行,除非您计划在数百万个 10 行的数据集上循环,否则您的基准几乎是无关紧要的(在这种情况下,我无法想象它不会是的情况作为第一步将它们绑定在一起是明智的)。

让我们用更大的数据集来做,比如大一百万倍:

df <- tibble(
  a = 1:10,
  b = c(1:5, 4:0),
  c = 10:1)

df2 <- bind_rows(replicate(1000000,df,F))

addSpread_base <- function(df) {
  df[['spread']] <- df[['a']] - df[['b']]
  df
}
addSpread_dplyr  <- function(df) df %>% mutate(spread = a - b)

microbenchmark::microbenchmark(
  addSpread_base(df2), 
  addSpread_dplyr(df2),
  times = 100)
# Unit: milliseconds
#                 expr      min       lq     mean   median       uq      max neval cld
# addSpread_base(df2) 25.85584 26.93562 37.77010 32.33633 35.67604 170.6507   100   a
# addSpread_dplyr(df2) 26.91690 27.57090 38.98758 33.39769 39.79501 182.2847   100   a

还是挺快的,差别不大。

至于你得到的结果的“为什么”,这是因为你使用了一个更复杂的函数,所以它有开销。

评论者指出dplyr 并没有太努力地追求速度,与data.table 相比也许确实如此,并且界面是第一个关注点,但作者也一直在努力提高速度。例如,混合评估允许(如果我做对了)在使用常用函数聚合时直接在分组数据上执行 C 代码,这可能比基本代码快得多,但简单代码总是使用简单函数运行得更快。

【讨论】:

  • 我知道 dplyr 已经解决了大部分速度问题——因此我很失望。另外,我认为非标准评估情况有点混乱。 IMO 那里必须有一些性能上升来回报上升曲线的努力。
  • 但是有,我发现了这个:rpubs.com/hadley/dplyr-benchmarks,它来自 5 年前,dplyr 通常比基础快得多,最近有一个讨论混合评估的基准,但我可以'不要把手放在上面。
  • 好吧,我想我做错了。我对 addSpreadSub 函数进行了基准测试,在 1000 万行的情况下,basedplyr 快约 20%。所以这不仅仅是规模问题。
  • 有趣,我不知道为什么会有这么大的差异,而且我无法重现它
猜你喜欢
  • 2021-09-03
  • 2016-09-28
  • 2020-02-08
  • 2012-07-17
  • 2011-11-07
  • 2015-08-24
  • 2013-08-06
  • 2014-07-16
  • 2011-01-02
相关资源
最近更新 更多