【问题标题】:pyspark dataframe data transformation with unique column values具有唯一列值的 pyspark 数据帧数据转换
【发布时间】:2020-05-16 02:32:03
【问题描述】:

我正在尝试使用 sql 功能或通过解决方案本身的数据框组来学习 pysaprk。

谢谢。

df1:

Name     Place     Product
AA       Germany   pencil
AA       Germany   pen
AA       Germany   pen
BB       Holland   hat
BB       Holland   hat
BB       Holland   pen
CC       USA       laptop
CC       USA       laptop
CC       USA       charger

预期输出:

Name     Place     Product
AA       Germany   pencil, pen
BB       Holland   hat, pen
CC       USA       laptop, charger

【问题讨论】:

    标签: sql python-3.x dataframe select pyspark


    【解决方案1】:

    您可以将 collect_set 用作

    df.groupBy("Name","Place").agg(concat_ws(",",collect_set("Product")))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-03-25
      • 1970-01-01
      • 2017-09-18
      • 2020-02-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多