【发布时间】:2020-08-06 06:20:07
【问题描述】:
我有以下数据框:
col1 col2
1 2020-02-27 15:00:00
1 2020-02-27 15:04:00
我需要输出为
col1 col2 col3
1 2020-02-27 15:00
1 2020-02-27 15:04 Y
根据 col2 中存在的最大时间戳值,col3 值必须填充为 Y 或 null。
我尝试了以下方法:
df = spark.sql("select col1,col2 from table")
max_ts = df.select(max("col2")).show()
y=(f.when(f.col('col2') == max_ts, "Y"))
df1 = df.withColumn('col3',y)
上述方法只产生空输出。
请提出可能的解决方案或错误?
TIA。
编辑:我需要在 col1 上执行 groupBy 并在 col2 中获取最大值
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql