【发布时间】:2020-12-30 12:54:39
【问题描述】:
我使用的是 PySpark 3.0.1 版。我正在读取一个 csv 文件作为具有 2 个日期列的 PySpark 数据框。但是当我尝试打印模式时,两列都填充为字符串类型。
附上的截图是数据框和数据框的架构。
如何使用 pyspark 将日期列中的行值转换为时间戳格式?
我尝试了很多东西,但所有代码都需要当前格式,但是如果我不知道 csv 文件中的格式是什么,如何转换为正确的时间戳。
我也尝试过下面的代码,但这正在创建一个具有空值的新列
df1 = df.withColumn('datetime', col('joining_date').cast('timestamp'))
print(df1.show())
print(df1.printSchema())
【问题讨论】:
标签: apache-spark datetime pyspark apache-spark-sql