【发布时间】:2021-09-16 04:26:12
【问题描述】:
假设我们有一个带有“event”列的DataFrame:
events
A
b
c
d
e
A
b
c
d
A
f
我想通过这样的拆分获得 WindowGroups 或只是带有 row_number() 的新列
events
A
b
c
d
e
f
g
----- split here ---
A
b
c
d
----- split here ---
A
f
所以我想将“事件”列中“A”之间的所有行放到一个组中。怎么做?我觉得可以用Window函数来完成。
【问题讨论】:
-
您的表格是否有用于对事件进行排序的列?
-
@etsuhisa 是的,我愿意。在示例中,我已经对其进行了排序,但最初它们没有排序。
-
这是否意味着大写的“A”是您要单独处理直到下一个“A”出现的数据块?
-
@AlexeyNovakov 是的
标签: sql scala apache-spark window-functions