【发布时间】:2016-10-31 01:10:23
【问题描述】:
我有一个日期 pyspark 数据框,其中包含 MM-dd-yyyy 格式的字符串列,我正在尝试将其转换为日期列。
我试过了:
df.select(to_date(df.STRING_COLUMN).alias('new_date')).show()
我得到一串空值。有人可以帮忙吗?
【问题讨论】:
-
除非您使用 TimeSeriesRDD 插件之一(有关讨论,请参阅 Spark 2016 会议,我知道有两个,但都仍在开发中),没有很多很棒的时间序列的工具。因此,如果您的目标是各种类型的
groupBy或重采样操作,我发现很少有理由将字符串转换为日期时间对象。只需在字符串列上执行它们。 -
分析将使用很少或不使用
groupBy,而是使用医疗记录的纵向研究。因此,能够操纵日期很重要
标签: python apache-spark pyspark apache-spark-sql