【问题标题】:"Unnesting" a dataframe in R在 R 中“取消嵌套”数据框
【发布时间】:2023-03-21 05:24:01
【问题描述】:

我有以下data.frame

df <- data.frame(id=c(1,2,3), 
                 first.date=as.Date(c("2014-01-01", "2014-03-01", "2014-06-01")), 
                 second.date=as.Date(c("2015-01-01", "2015-03-01", "2015-06-1")),
                 third.date=as.Date(c("2016-01-01", "2017-03-01", "2018-06-1")),
                 fourth.date=as.Date(c("2017-01-01", "2018-03-01", "2019-06-1")))

> df

  id first.date second.date third.date fourth.date
1  1 2014-01-01  2015-01-01 2016-01-01  2017-01-01
2  2 2014-03-01  2015-03-01 2017-03-01  2018-03-01
3  3 2014-06-01  2015-06-01 2018-06-01  2019-06-01

每一行代表三个时间跨度;即时间分别在first.datesecond.datesecond.datethird.datethird.datefourth.date之间。

在没有更好的词的情况下,我想取消嵌套数据框来获得它:

  id  StartDate    EndDate
1  1 2014-01-01 2015-01-01
2  1 2015-01-01 2016-01-01
3  1 2016-01-01 2017-01-01
4  2 2014-03-01 2015-03-01
5  2 2015-03-01 2017-03-01
6  2 2017-03-01 2018-03-01
7  3 2014-06-01 2015-06-01
8  3 2015-06-01 2018-06-01
9  3 2018-06-01 2019-06-01

我一直在使用 tidyr 包中的 unnest 函数,但我得出的结论是,我认为这不是我真正想要的。

有什么建议吗?

【问题讨论】:

    标签: r unnest


    【解决方案1】:

    您可以按如下方式尝试 tidyr/dplyr:

    library(tidyr)
    library(dplyr)
    df %>% gather(DateType, StartDate, -id) %>% select(-DateType) %>% arrange(id) %>% group_by(id) %>% mutate(EndDate = lead(StartDate))
    

    您可以通过添加来消除每个 id 组中的最后一行:

    %>% slice(-4)
    

    到上面的管道。

    【讨论】:

    • 谢谢。正是我想要的。
    【解决方案2】:

    我们可以使用data.table。我们将'data.frame'转换为'data.table'(setDT(df)),然后将melt数据集转换为long格式,使用shifttype='lead'按'id'分组,然后删除@ 987654327@ 元素。

    library(data.table)
    na.omit(melt(setDT(df), id.var='id')[, shift(value,0:1, type='lead') , id])
    #   id         V1         V2
    #1:  1 2014-01-01 2015-01-01
    #2:  1 2015-01-01 2016-01-01
    #3:  1 2016-01-01 2017-01-01
    #4:  2 2014-03-01 2015-03-01
    #5:  2 2015-03-01 2017-03-01
    #6:  2 2017-03-01 2018-03-01
    #7:  3 2014-06-01 2015-06-01
    #8:  3 2015-06-01 2018-06-01
    #9:  3 2018-06-01 2019-06-01
    

    可以使用setnames 或更早的shift 步骤更改列名。

    【讨论】:

    • 也很欣赏这个建议。我无法将其翻译为与我的实际数据一起使用,但这与我的 R 技能有关,而不是建议的质量。
    猜你喜欢
    • 2019-03-16
    • 1970-01-01
    • 2022-07-04
    • 2023-03-20
    • 2020-07-14
    • 1970-01-01
    • 2021-09-23
    • 1970-01-01
    • 2023-04-06
    相关资源
    最近更新 更多