【发布时间】:2020-01-22 02:09:07
【问题描述】:
我正在使用 Java Spark,我有 1 个这样的数据框
+---+-----+------+
|id |color|datas |
+----------------+
|1 |blue |data1|
|1 |red |data2|
|1 |orange|data3|
|2 |black |data4|
|2 | |data5|
|2 |yellow| |
|3 |white |data7|
|3 | |data8|
+----------------+
我需要修改这个数据框看起来像这样:
+---+--------------------+---------------------+
|id |color |datas |
+----------------------------------------------+
|1 |[blue, red, orange] |[data1, data2, data3]|
|2 |[black, yellow] |[data4, data5] |
|3 |[white] |[data7, data8] |
+----------------------------------------------+
我想合并数据以创建一个包含同一列但基于“id”列的不同行的“数组”。
我可以通过 UserDefinedAggregateFunction 完成,但我一次只能完成一列,而且处理时间太长。
谢谢
编辑:我使用的是 Spark 1.6
【问题讨论】:
标签: java apache-spark apache-spark-sql