计算以前的事件答案

【问题标题】：Counting previous incidents计算以前的事件
【发布时间】：2018-07-03 21:05:47
【问题描述】：

第一次在这里提问：

我有代表事件的日期和人员数据。我想找到一种方法来计算一个人以前参与的次数。所以我想要看起来像这样的数据：

df <- data.frame(date = seq(ymd('2018-01-01'),ymd('2018-01-10'), by = '1 day'),
             id = c(1, 2, 3, 4, 3, 5, 2, 2, 1, 4),
             # how many previous times has this id been seen?
             count_before = c(0, 0, 0, 0, 1, 0, 2, 1, 1, 1))

df

   date          person_id count_before
 1 2018-01-01    1.           0.
 2 2018-01-02    2.           0.
 3 2018-01-03    3.           0.
 4 2018-01-04    4.           0.
 5 2018-01-05    3.           1.
 6 2018-01-06    5.           0.
 7 2018-01-07    2.           1.
 8 2018-01-08    2.           2.
 9 2018-01-09    1.           1.
10 2018-01-10    4.           1.

我没有在 R 中按行工作的经验（sapply 可能是答案？）但是使用 dplyr summarise 和 group_by 思考这个问题到目前为止都失败了。

编辑：修复了预期输出的不一致问题。

【问题讨论】：

这似乎不一致。 2. 出现在第 2 行（计数 0）、第 7 行（计数 2）和第 8 行（计数 1）中。这可能是一个错字，但当“预期输出”与描述不一致时，很难回答问题。
对不起！尽管有错误，快乐的人还是能弄清楚。
nstets，是否有任何答案提供合适的解决方案？如果是这样，请"accept" the answer。（如果不止一个是好的，尽管您最多可以接受一个，但您可以“投票”尽可能多的人认为有帮助。）

标签： r tidyverse lubridate

【解决方案1】：

试试这个，提供我认为你想要的预期计数。

使用dplyr：

library(lubridate)
library(dplyr)
df <- data.frame(date = seq(ymd('2018-01-01'),ymd('2018-01-10'), by = '1 day'),
             id = c(1, 2, 3, 4, 3, 5, 2, 2, 1, 4))
df %>%
   arrange(date) %>%
   group_by(id) %>%
   mutate(count_before = row_number() - 1L) %>%
   ungroup()
# # A tibble: 10 × 3
#          date    id count_before
#        <date> <dbl>        <int>
# 1  2018-01-01     1            0
# 2  2018-01-02     2            0
# 3  2018-01-03     3            0
# 4  2018-01-04     4            0
# 5  2018-01-05     3            1
# 6  2018-01-06     5            0
# 7  2018-01-07     2            1
# 8  2018-01-08     2            2
# 9  2018-01-09     1            1
# 10 2018-01-10     4            1

基础R：

do.call(rbind, by(df, df$id, function(a) { a$count <- seq.int(nrow(a))-1L; a;}))
#            date id count
# 1.1  2018-01-01  1     0
# 1.9  2018-01-09  1     1
# 2.2  2018-01-02  2     0
# 2.7  2018-01-07  2     1
# 2.8  2018-01-08  2     2
# 3.3  2018-01-03  3     0
# 3.5  2018-01-05  3     1
# 4.4  2018-01-04  4     0
# 4.10 2018-01-10  4     1
# 5    2018-01-06  5     0

【讨论】：

谢谢！我更喜欢 dplyr 所以这很棒。必须通过它来确保我得到它（我从未见过 row_count 函数或 1L），但我真的很感激。
1L（或任何带有尾随 L 的数字）在 R 中是一个真正的“整数”。我这样做部分是为了教学完整性，部分是为了代码一致性（加强 @987654327 @ 返回 integer 而不是 numeric），部分（几乎）返回 R FAQ 7.31。没有L 也可以正常工作。

【解决方案2】：

这是另一个base R 解决方案。如@r2evans 所述，还认为您的预期输出中有错字。

transform(df, count_new = ave(person_id, person_id, FUN = function(x) cumsum(x == x) - 1))
#         date person_id count_before count_new
#1  2018-01-01         1            0         0
#2  2018-01-02         2            0         0
#3  2018-01-03         3            0         0
#4  2018-01-04         4            0         0
#5  2018-01-05         3            1         1
#6  2018-01-06         5            0         0
#7  2018-01-07         2            2         1
#8  2018-01-08         2            1         2
#9  2018-01-09         1            1         1
#10 2018-01-10         4            1         1

【讨论】：

ave 是我在想做一个基本解决方案时正在考虑的（不记得实际功能），但我想得不够快。 +1

【解决方案3】：

使用data.table 的解决方案。

library(tidyverse)
library(data.table)

df <- data.frame(date = seq(ymd('2018-01-01'),ymd('2018-01-10'), by = '1 day'),
                 id = c(1, 2, 3, 4, 3, 5, 2, 2, 1, 4))

setDT(df)

df[, count_before := seq_len(.N) - 1, by = id]
df
#           date id count_before
#  1: 2018-01-01  1            0
#  2: 2018-01-02  2            0
#  3: 2018-01-03  3            0
#  4: 2018-01-04  4            0
#  5: 2018-01-05  3            1
#  6: 2018-01-06  5            0
#  7: 2018-01-07  2            1
#  8: 2018-01-08  2            2
#  9: 2018-01-09  1            1
# 10: 2018-01-10  4            1

我们还可以做以下事情。

df[, count_before := rowid(id) - 1]
df
#           date id count_before
#  1: 2018-01-01  1            0
#  2: 2018-01-02  2            0
#  3: 2018-01-03  3            0
#  4: 2018-01-04  4            0
#  5: 2018-01-05  3            1
#  6: 2018-01-06  5            0
#  7: 2018-01-07  2            1
#  8: 2018-01-08  2            2
#  9: 2018-01-09  1            1
# 10: 2018-01-10  4            1

【讨论】：