【发布时间】:2021-04-11 15:01:55
【问题描述】:
我有一个 pyspark 数据框,其中包含字符串、整数和数组类型列。我正在尝试为所有列运行 for 循环以检查它们是否是任何数组类型列并将其转换为字符串。
pyspark 数据框中的输出应该包含 int,string 列。
我有以下代码,但它失败并出现以下错误。修复此错误的任何建议
df2 = df.select([df.withColumn(c,F.concat_ws(",",col(c))).alias(c) if dict(df.dtypes)[c] in 'array<string>' else F.col(c) for c in df.columns])
错误:对于列文字,请使用“lit”、“array”、“struct”或“create_map”函数。
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql