【发布时间】:2022-01-11 17:30:36
【问题描述】:
我有一个 2 列 Spark 数据框,其独特组合看起来像这样(简单版本):
col1 col2
a b
b c
b d
d e
f g
我想组成组,在这种情况下会有 2 个组:(a,b,c,d,e) 和 (f,g),因为它们是通过组合链接的。计算组成员数量的最简单方法是,如果我能将其作为输出:
col1 col2
a b
a c
a d
a e
f g
有人知道怎么做吗?提前感谢您的帮助!
【问题讨论】:
标签: python sql apache-spark pyspark