【发布时间】:2023-02-02 13:24:03
【问题描述】:
我有一个带有 ArrayType 列的 Spark 数据框:
|id|neighbors|
+--+---------+
|a |[b,c] |
|b |[a,d] |
|c |[a] |
|d |[b] |
+--+---------+
我需要将此 ArrayType 列中的值映射到初始数据框。
期望的输出:
|id|neighbors |
+--+-------------+
|a |[[a,d],[a]] |
|b |[[b,c],[b]] |
|c |[[b,c]] |
|d |[[a,d]] |
+--+-------------+
处理这个问题的最佳方法是什么?我有非常大量的数据(大约 1 亿条记录)。
【问题讨论】:
-
a | [b, c]怎么会变成a | [[a,d],[a]]? -
在我的初始数据框中,我有 id 和邻居:
b | [a, d]和c | [a],所以我将这些值映射到数组[b, c]上id==id 内部邻居@pltc
标签: python arrays apache-spark pyspark apache-spark-sql