【发布时间】:2020-08-03 02:09:12
【问题描述】:
在 pyspark 数据框中,我需要创建一个新的 ArrayType(StringType()) 列,其值来自 StringType() 列,它们的长度来自另一个 ArrayType(StringType()) 列的长度。有点像具有动态长度的 array_repeat。
输入:
+-------------+-------------+
|col1 |col2 |
+-------------+-------------+
|[1,2] |‘a’ |
|[1,2,3] |‘b’ |
+-------------+-------------+
输出:
+-------------+-------------+----------------+
|col1 |col2 |col3 |
+-------------+-------------+----------------+
|[1,2] |‘a’ |['a’,‘a’] |
|[1,2,3] |‘b’ |['b’,’b’,’b’] |
+-------------+----------- -+----------------+
谢谢
【问题讨论】:
标签: python apache-spark pyspark