【发布时间】:2021-10-01 14:11:55
【问题描述】:
我是 pyspark 的新手,但我做了一些研究,似乎无法找到我的问题的答案。我有一个数据框,我可以在 streetID col 中有重复的条目。我需要根据 streetID 创建一个(排序的)houseNums 列表。
+---------+---------+
|streetID |houseNum |
+---------+---------+
| 890| 12445|
| 400| 35840|
| 890| 28980|
| 639| 35840|
| 639| 12445|
+---------+---------+
希望结果看起来像这样。我是否需要一个 UDF,或者是否有内置的 API 可以解决这个问题?有什么建议吗?
+---------+--------------------+
|streetID |houseNumList |
+---------+--------------------+
| 400| [35840] |
| 890| [12445, 28980] |
| 639| [12445, 35840] |
+---------+--------------------+
【问题讨论】:
标签: pyspark