【问题标题】:R data.table find lags between current row to previous rowR data.table 查找当前行与上一行之间的滞后
【发布时间】:2018-03-07 00:36:22
【问题描述】:
> tempDT <- data.table(colA = c("E","E","A","A","E","A","E")
+                      , lags = c(NA,1,1,2,3,1,2))
> tempDT
   colA lags
1:    E   NA
2:    E    1
3:    A    1
4:    A    2
5:    E    3
6:    A    1
7:    E    2

我有colA 列,需要找出当前行与colA == "E" 的前一行之间的滞后。

注意:如果我们可以找到colA == "E" 的前一行的行引用,那么我们可以计算滞后。但是,我不知道如何实现它。

【问题讨论】:

    标签: r data.table row lag shift


    【解决方案1】:

    1) 定义lastEpos,其中给定i 返回最后一个E 在前i 行中的位置,并将其应用于每个行号:

    lastEpos <- function(i) tail(which(tempDT$colA[1:i] == "E"), 1)
    tempDT[, lags := .I - shift(sapply(.I, lastEpos))]
    

    这里有一些变化:

    2) i-1 在此变体中,lastEpos 返回最后一个E 在前i-1 行中的位置,而不是i

    lastEpos <- function(i) tail(c(NA, which(tempDT$colA[seq_len(i-1)] == "E")), 1)
    tempDT[, lags := .I - sapply(.I, lastEpos)]
    

    3) 位置 类似于 (2) 但使用Position

    lastEpos <- function(i) Position(c, tempDT$colA[seq_len(i-1)] == "E", right = TRUE)
    tempDT[, lags := .I - sapply(.I, lastEpos)]
    

    4) 滚动应用

    library(zoo)
    w <- lapply(1:nrow(tempDT), function(i) -rev(seq_len(i-1)))
    tempDT[, lags := .I - rollapply(colA == "E", w, Position, f = c, right = TRUE)]
    

    5) sqldf

    library(sqldf)
    
    sqldf("select a.colA, a.rowid - b.rowid lags
           from tempDT a left join tempDT b
           on b.rowid < a.rowid and b.colA = 'E'
           group by a.rowid")
    

    【讨论】:

    • 另一种方式:w = tempDT[colA == "E", which=TRUE]; tempDT[, v := shift(rowid(findInterval(.I, w)))]
    • @Frank,在处理大型数据集(45 行)时似乎很慢。有没有办法加快速度?
    • @LeGeniusII 嗯,也许是tempDT[, v:= shift(rowid(cumsum(colA=="E")))]?如果您发布一个新问题(带有一个可以通过参数 n 扩展到任意行数的示例),那么其他人也可以尝试使其快速运行并运行基准进行比较。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-08-28
    • 1970-01-01
    • 2021-09-04
    • 2018-04-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多