【发布时间】:2023-02-16 22:45:45
【问题描述】:
我有包含以下列的 pyspark 数据框:
- session_id
- 时间戳
data = [(("ID1", "2021-12-10 10:00:00")),
(("ID1", "2021-12-10 10:05:00")),
(("ID2", "2021-12-10 10:20:00")),
(("ID2", "2021-12-10 10:24:00")),
(("ID2", "2021-12-10 10:26:00")),
]
我想对会话进行分组并添加一个名为持续时间的新列,这将是该会话的最旧和最新时间戳之间的差异(以秒为单位):
ID1: 300
ID2: 360
如何实现呢?
谢谢,
【问题讨论】:
标签: pyspark