【发布时间】:2021-08-03 20:30:14
【问题描述】:
我有一个带有日期时间列的 Spark 数据框,格式为 yyyy-MM-dd HH:mm:SS。
我的数据框如下所示:
| datetime_column | output_column |
|---|---|
| 2021-01-29 21:30:00 | 2021-01-30 00:00:00 |
| 2021-01-30 05:30:00 | 2021-01-30 00:00:00 |
| 2021-01-01 23:25:00 | 2021-01-02 00:00:00 |
| 2021-01-02 08:59:59 | 2021-01-02 00:00:00 |
如何使用 Spark SQL 从 datetime_column 列中获取 output_column 列?
注意:我的数据 (datetime_column) 将始终在晚上 9 点到早上 9 点之间出现,因此查找最近的午夜很简单。
我正在使用 PySpark 2.4.6
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql