【发布时间】:2021-10-22 17:55:56
【问题描述】:
我有 Pyspark 数据框:
id | column_1 | column_2 | column_3
--------------------------------------------
1 | ["12"] | null | ["67"]
--------------------------------------------
2 | null | ["78"] | ["90"]
--------------------------------------------
3 | ["""] | ["93"] | ["56"]
--------------------------------------------
4 | ["100"] | ["78"] | ["90"]
--------------------------------------------
我需要将 column1 的所有 null 值转换为空数组 []
id | column_1 | column_2 | column_3
--------------------------------------------
1 | ["12"] | null | ["67"]
--------------------------------------------
2 | [] | ["78"] | ["90"]
--------------------------------------------
3 | ["""] | ["93"] | ["56"]
--------------------------------------------
4 | ["100"] | ["78"] | ["90"]
--------------------------------------------
使用此代码,但它不适合我。
df.withColumn("column_1", coalesce(column_1, array().cast("array<string>")))
感谢您的帮助!
【问题讨论】: