【发布时间】:2020-05-10 01:11:39
【问题描述】:
我有以下数据集:
usr_id, event_time, type_of_event, options
1, 2019-01-01 20:00:00, session_started, option1
1, 2019-01-01 20:00:01, session_continue, option2
1, 2019-01-01 20:00:02, session_finished
1, 2019-01-01 20:00:01, session_started, option3
1, 2019-01-01 20:00:02, session_finished
作为输出,我想做这样的事情:
usr_id, session_id, options
1, unique_session_id1, [option1, option2]
1, unique_session_id2, [option3]
我尝试了一些窗口功能,但没有帮助。
【问题讨论】:
-
使用 groupBy 函数
标签: sql scala apache-spark