【发布时间】:2022-07-16 18:07:01
【问题描述】:
使用这个数据框:
from pyspark.sql import functions as F
df = spark.createDataFrame([(None,), (1,), (2,)], ['col_name'])
df.show()
# +--------+
# |col_name|
# +--------+
# | null|
# | 1|
# | 2|
# +--------+
计算MAX默认忽略空值:
max = F.max('col_name').alias('col_name')
df.agg(max).show()
# +--------+
# |col_name|
# +--------+
# | 2|
# +--------+
有没有办法使用MAX 进行聚合,但不忽略空值?如果有 null,它应该返回 null。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql null max