【发布时间】:2017-02-20 12:57:23
【问题描述】:
所以我有一个如下所示的 spark 数据框:
a | b | c
5 | 2 | 1
5 | 4 | 3
2 | 4 | 2
2 | 3 | 7
我想按列 a 分组,从列 b 创建一个值列表,然后忘记 c。输出数据框将是:
a | b_list
5 | (2,4)
2 | (4,3)
我将如何使用 pyspark sql 数据框执行此操作?
谢谢! :)
【问题讨论】:
标签: apache-spark group-by spark-dataframe pyspark-sql