【发布时间】:2020-08-25 14:52:19
【问题描述】:
根据here 的建议,我想知道如何使用 PySpark 过滤带有时区的日期时间范围。
我的数据如下所示:
ABC,2020-06-22T19:17:16.428+0000
DEF,2020-06-22T19:17:16.435+0000
JKL,2020-06-22T19:17:16.468+0000
移动网络运营商,2020-06-22T19:17:16.480+0000
XYZ,2020-06-22T19:17:16.495+0000
在这种情况下,我只想提取那些毫秒数在 400-450 之间的记录。
试过了,但没用:
import pyspark.sql.functions as func
df = df.select(func.to_date(df.UpdatedOn).alias("time"))
sf = df.filter(df.time > '2020-06-22T19:17:16.400').filter(df.time < '2020-06-22T19:17:16.451')
【问题讨论】:
-
你能给出df的schema吗?
df.printSchema() -
root |-- 时间:日期(可为空=真)
标签: python pyspark apache-spark-sql databricks azure-databricks