【发布时间】:2019-09-11 07:04:42
【问题描述】:
如果我可以按组计算数据集的时间差,我想知道是否可以使用 pyspark。 例如我有
CODE1 | CODE2 | TIME
00001 | AAA | 2019-01-01 14:00:00
00001 | AAA | 2019-01-01 14:05:00
00001 | AAA | 2019-01-01 14:10:00
00001 | BBB | 2019-01-01 14:15:00
00001 | BBB | 2019-01-01 14:20:00
00001 | AAA | 2019-01-01 14:25:00
00001 | AAA | 2019-01-01 14:30:00
我想要的是类似
CODE1 | CODE2 | TIME_DIFF
00001 | AAA | 10 MINUTES
00001 | BBB | 5 MINUTES
00001 | AAA | 5 MINUTES
时间差是从同一类别的最后一条记录到第一条记录。我已经按时间对信息进行了排序。 有可能吗?
【问题讨论】: