【发布时间】:2017-05-18 07:50:39
【问题描述】:
我想将一个 Spark DataFrame 转换为另一个 DataFrame,具体方式如下:
我有 Spark DataFrame:
col des
A a
A b
B b
B c
作为操作的结果,我还希望有一个 Spark DataFrame:
col des
A a,b
B b,c
我尝试使用:
结果
结果我得到了计数。是否有(summarize 或 agg)的任何参数将列转换为列表或类似的东西,但假设所有操作都在 Spark 上完成?
提前谢谢你
【问题讨论】:
-
你可以使用
collect_list(),但恐怕还没有集成到SparkR中。 -
不幸的是它不是:(我发现它是在pySpark中实现的,这是一种可能的解决方案。
标签: apache-spark group-by aggregate spark-dataframe sparkr