【问题标题】:How to format date in Spark SQL?如何在 Spark SQL 中格式化日期?
【发布时间】:2020-03-05 13:42:51
【问题描述】:

我需要将这个给定的日期格式:2019-10-22 00:00:00 转换为这个:2019-10-22T00:00:00.000Z

我知道这可以通过以下方式在某些数据库中完成:

在 AWS Redshift 中,您可以使用以下方法实现此目的:

TO_DATE('{RUN_DATE_YYYY/MM/DD}', 'YYYY/MM/DD') || 'T00:00:00.000Z' AS VERSION_TIME

但是我的平台是 Spark SQL,所以以上两个都不适合我,我能得到的最好的就是使用这个:

concat(d2.VERSION_TIME, 'T00:00:00.000Z') as VERSION_TIME

这有点hacky,但仍然不完全正确,有了这个,我得到了这个日期格式:2019-10-25 00:00:00T00:00:00.000Z, 但是字符串中间的这部分 00:00:00是多余的,我不能把它留在那里。

任何人在这里有任何见解将不胜感激!

【问题讨论】:

    标签: sql apache-spark pyspark apache-spark-sql date-format


    【解决方案1】:

    也许是这样的?这是一个有点不同的方法。

    scala> val df = spark.range(1).select(current_date.as("date"))
    scala> df.show()
    +----------+
    |      date|
    +----------+
    |2019-11-09|
    +----------+
    
    scala> 
    
    df.withColumn("formatted",
        concat(
        regexp_replace(date_format('date,"yyyy-MM-dd\tHH:mm:ss.SSS"),"\t","T"),
        lit("Z")
        )
    ).show(false)
    
    +----------+------------------------+
    |date      |formatted               |
    +----------+------------------------+
    |2019-11-09|2019-11-09T00:00:00.000Z|
    +----------+------------------------+
    

    【讨论】:

      【解决方案2】:

      这是我认为的自然方式。

      spark.sql("""SELECT date_format(to_timestamp("2019-10-22 00:00:00", "yyyy-MM-dd HH:mm:ss"), "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'") as date""").show(false)
      

      结果是:

      +------------------------+
      |date                    |
      +------------------------+
      |2019-10-22T00:00:00.000Z|
      +------------------------+
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2011-11-24
        • 2015-03-05
        • 2021-11-26
        • 1970-01-01
        • 2019-03-16
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多