【发布时间】:2022-02-02 19:27:45
【问题描述】:
假设我有一个 pyspark 数据框:
col1 col2 col3
1 2 -3
2 null 5
4 4 8
1 0 9
我想添加一个名为 check 的列,用于计算大于 0 的值的数量。
最终输出将是:
col1 col2 col3 check
1 2 -3 2
2 null 5 2
4 4 8 3
1 0 9 2
我正在尝试这个。但是,它没有帮助,错误如下:
df= df.withColumn("check", sum((df[col] > 0) for col in df.columns))
参数无效,不是字符串或列:
类型的 0x7f0a866ae580> 处。对于列文字, 使用“lit”、“array”、“struct”或“create_map”函数。
【问题讨论】:
标签: dataframe apache-spark pyspark count apache-spark-sql