【问题标题】：Grouping by consecutive value occurrences按连续值出现分组
【发布时间】：2019-03-14 17:57:32
【问题描述】：

我遇到了一个问题，迫使我使用循环而不是我喜欢的 dplyr 管道流。

我想根据对相同值的连续观察对行进行分组。例如，如果type 的前四个观察值等于a，则前四个观察值应分配给同一组。订单很重要，所以我不能dplyr::group_by 和dplyr::summarize。

下面的代码应该很好地解释了这个问题。我想知道是否有人可以提出一种不那么冗长的方法来做到这一点，最好使用tidyverse 包，而不是data.tables。

library(tidyverse)

# Crete some test data
df <- tibble(
  id = 1:20,
  type = c(rep("a", 5), rep("b", 5), rep("a", 5), rep("b", 5)),
  val = runif(20)
)

df
#> # A tibble: 20 x 3
#>       id type     val
#>    <int> <chr>  <dbl>
#>  1     1 a     0.0606
#>  2     2 a     0.501 
#>  3     3 a     0.974 
#>  4     4 a     0.0833
#>  5     5 a     0.752 
#>  6     6 b     0.0450
#>  7     7 b     0.367 
#>  8     8 b     0.649 
#>  9     9 b     0.846 
#> 10    10 b     0.896 
#> 11    11 a     0.178 
#> 12    12 a     0.295 
#> 13    13 a     0.206 
#> 14    14 a     0.233 
#> 15    15 a     0.851 
#> 16    16 b     0.179 
#> 17    17 b     0.801 
#> 18    18 b     0.326 
#> 19    19 b     0.269 
#> 20    20 b     0.584

# Solve problem with a loop
count <- 1
df$consec_group <- NA
for (i in 1:nrow(df)) {
  current <- df$type[i]
  lag <- ifelse(i == 1, NA, df$type[i - 1])
  lead <- ifelse(i == nrow(df), NA, df$type[i + 1])

  if (lead %>% is.na) {
    df$consec_group[i] <- ifelse(current == lag, count, count + 1) 
  } else {
    df$consec_group[i] <- count 
    if (current != lead) count <- count + 1
  }
}

df
#> # A tibble: 20 x 4
#>       id type     val consec_group
#>    <int> <chr>  <dbl>        <dbl>
#>  1     1 a     0.0606            1
#>  2     2 a     0.501             1
#>  3     3 a     0.974             1
#>  4     4 a     0.0833            1
#>  5     5 a     0.752             1
#>  6     6 b     0.0450            2
#>  7     7 b     0.367             2
#>  8     8 b     0.649             2
#>  9     9 b     0.846             2
#> 10    10 b     0.896             2
#> 11    11 a     0.178             3
#> 12    12 a     0.295             3
#> 13    13 a     0.206             3
#> 14    14 a     0.233             3
#> 15    15 a     0.851             3
#> 16    16 b     0.179             4
#> 17    17 b     0.801             4
#> 18    18 b     0.326             4
#> 19    19 b     0.269             4
#> 20    20 b     0.584             4

由 reprex 包 (v0.2.1) 于 2019 年 3 月 14 日创建

这种连续出现的type 分组实际上只是一个中间步骤。我的结局是根据在前一个consec_group 中发生的val 的值，为给定的consec_group 操作val。对相关软件包的建议将不胜感激。

【问题讨论】：

with(rle(df$type), rep(seq_along(lengths), lengths))
这是一篇接近于被欺骗的帖子：stackoverflow.com/q/47169195/5325862
@camille 这很接近，但这里的问题和答案要清楚得多。也许把这个问题当作这个问题的骗子来结束？

标签： r dplyr

【解决方案1】：

您说“没有 data.tables”，但您确定吗？它是如此快速和简单（在这种情况下）......

library(data.table)
setDT(df)[, groupid := rleid(type)][]

#     id type         val groupid
#  1:  1    a 0.624078793       1
#  2:  2    a 0.687361541       1
#  3:  3    a 0.817702740       1
#  4:  4    a 0.669857208       1
#  5:  5    a 0.100977936       1
#  6:  6    b 0.418275823       2
#  7:  7    b 0.660119857       2
#  8:  8    b 0.876015209       2
#  9:  9    b 0.473562143       2
# 10: 10    b 0.284474633       2
# 11: 11    a 0.034154862       3
# 12: 12    a 0.391760387       3
# 13: 13    a 0.383107868       3
# 14: 14    a 0.729583433       3
# 15: 15    a 0.006288375       3
# 16: 16    b 0.530179235       4
# 17: 17    b 0.802643704       4
# 18: 18    b 0.409618633       4
# 19: 19    b 0.309363642       4
# 20: 20    b 0.021918512       4

如果你坚持使用 tidyverse/dplyr，你（当然）仍然可以使用 rleid-函数如下：

df %>% mutate( groupid = data.table::rleid(type) )

基准

在更大的样本上

library(tidyverse)
library(data.table)

# Crete some large test data
df <- tibble(
  id = 1:200000,
  type = sample(letters[1:26], 200000, replace = TRUE),
  val = runif(200000)
)

dt <- as.data.table(df)

microbenchmark::microbenchmark(
  dplyr.rleid      = df %>% mutate( groupid = data.table::rleid(type) ),
  data.table.rleid = dt[, groupid := rleid(type)][], 
  rle = df %>% mutate(ID_rleid = {ID_rleid = rle(type); rep(seq_along(ID_rleid$lengths), ID_rleid$lengths)}),
  rle2 = df %>% mutate(ID_rleid = with(rle(type), rep(seq_along(lengths), lengths))),
  transform = transform(df, ID = with(rle(df$type), rep(seq_along(lengths), lengths))),
  times = 10)

# Unit: milliseconds
#             expr       min        lq      mean    median        uq        max neval
#      dplyr.rleid  3.153626  3.278049  3.410363  3.444949  3.502792   3.582626    10
# data.table.rleid  2.965639  3.065959  3.173992  3.145643  3.259672   3.507009    10
#              rle 13.059774 14.042797 24.364176 26.126176 29.460561  36.874054    10
#             rle2 12.641319 13.553846 30.951152 24.698338 34.139786 102.791719    10
#        transform 12.330717 22.419128 22.725242 25.532084 26.187634  26.702794    10

【讨论】：

你提出了一个有说服力的论点。我的理由是：a) 我还没有花时间学习 data.tables，因为我天真地认为 tidyverse 满足了我的需求（否则你可能只是说服了我）。 b）我在做探索性分析，有一天我的同事不可避免地会把我的工作翻译成python；我想让事情变得容易理解，我的印象是 DT 比 dplyr 更难阅读。
只需添加足够的 cmets（就像您在使用 tidyverse 时（可能）也会这样做）。
感谢您发布此内容：即使这不是提问者喜欢的解决方案，它也会对未来有相同问题的人有所帮助！
@djfinnoy 查看答案的底部以获取某种 dplyr 解决方案；-)
谢谢！虽然我说没有 data.tables，但我只是喜欢优雅；我会为 cmets 使用额外的空间

【解决方案2】：

您可以像这样使用rleid()-like 可能性：

df %>%
 mutate(ID_rleid = {ID_rleid = rle(type); rep(seq_along(ID_rleid$lengths), ID_rleid$lengths)})

      id type     val ID_rleid
   <int> <chr>  <dbl>    <int>
 1     1 a     0.0430        1
 2     2 a     0.858         1
 3     3 a     0.504         1
 4     4 a     0.318         1
 5     5 a     0.469         1
 6     6 b     0.144         2
 7     7 b     0.173         2
 8     8 b     0.0706        2
 9     9 b     0.958         2
10    10 b     0.557         2
11    11 a     0.358         3
12    12 a     0.973         3
13    13 a     0.982         3
14    14 a     0.177         3
15    15 a     0.599         3
16    16 b     0.627         4
17    17 b     0.454         4
18    18 b     0.682         4
19    19 b     0.690         4
20    20 b     0.713         4

或修改（最初由@d.b 提出）使其更方便：

df %>%
 mutate(ID_rleid = with(rle(type), rep(seq_along(lengths), lengths)))

【讨论】：

@divibisan 在发布我自己的解决方案之前我还没有看到该评论，但这真的很好。我将它添加到我的帖子中。