【发布时间】:2021-03-24 19:14:32
【问题描述】:
考虑一个示例数据框,比如df:
user_id | item_id | item_param1 | item_param2 |
1 a 10 20
1 b 30 40
2 b 50 60
2 c 70 80
从这个数据框df,我想在一行中为每个user_id 收集所有items 及其属性item_paramX,因此输出将是:
user_id | values
------------------------------------------------
1 | [{'a': {'item_param1': 10, 'item_param2': 20}}, {'b': {'item_param1': 30, 'item_param2': 40}}]
2 | [{'b': {'item_param1': 50, 'item_param2': 60}}, {'c': {'item_param1': 70, 'item_param2': 80}}]
我需要使用groupBy('user_id'),然后是某种形式的collect_list 来获取字典列表。
【问题讨论】:
标签: python apache-spark dictionary pyspark apache-spark-sql