【发布时间】:2021-02-09 15:27:58
【问题描述】:
我有一个 PySpark 数据框,它有一个复杂的列,参考下面的值:
ID value
1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}]
我想在 PySpark 数据框中添加一个新列,该列基本上将其转换为字符串列表。如果 Label 为 null,则字符串应包含“value”,如果 label 不为 null,则字符串应为“label:value”。因此,对于上面的示例数据框,输出应如下所示:
ID new_column
1 ["animal:cat", "George"]
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql