【发布时间】:2021-04-09 06:15:26
【问题描述】:
我有一个带有 3 coulmne timestamp eventid active 的表
| timestamp | eventid | active |
|---|---|---|
| 2020-02-01 22:44:23 | E1 | true |
| 2020-02-01 22:45:23 | E1 | false |
| 2020-02-01 22:46:23 | E1 | true |
| 2020-02-01 22:47:23 | E1 | false |
| 2020-02-01 22:44:23 | E2 | true |
| 2020-02-01 22:45:23 | E2 | false |
| 2020-02-01 22:46:23 | E2 | true |
需要找到事件的开始和结束时间 此处的事件 e2 不会被视为仍处于活动状态。
| Start_Time | End_Time | eventid |
|---|---|---|
| 2020-02-01 22:44:23 | 2020-02-01 22:47:23 | E1 |
更新: 能够使用 Pyspark 找到解决方案,请参阅下面的答案
【问题讨论】:
-
编辑您的问题并显示您想要的结果。同时标记您正在使用的数据库。
-
@Grdon 更新了问题,关于数据库,我正在研究 spark sql,但任何通用 sql(任何数据库)都可以使用
标签: sql apache-spark-sql time-series