【问题标题】:How to filter/extract invalid timestamp values from spark dataframe using pyspark如何使用pyspark从spark数据帧中过滤/提取无效的时间戳值
【发布时间】:2021-08-22 14:29:31
【问题描述】:

我有一个包含时间戳列的 XYZ 记录数据框,该时间戳列包含无效值,如下所示

我必须创建两个数据帧,一个包含有效的时间戳值,另一个包含无效的时间戳值,如下所示:

有效的 df 应该如下所示:

无效记录 df 应该具有无效时间戳的值:

不知道如何使用 pyspark 以这种方式进行过滤。请帮忙。

【问题讨论】:

    标签: python apache-spark pyspark apache-spark-sql


    【解决方案1】:

    您可以使用 to_date/to_timestamp 方法将列类型更改为日期/时间戳类型。如果输入日期有效 to_date 将以 spark 的默认日期格式返回日期,如果不是 null 将返回。基于这种行为,我们可以提取有效日期和无效日期。

    df = # Input dataframe
    
    date_df = df.withColumn("validdatecheck",to_date("modified_date", "dd/MM/yyyy hh:mm:ss"))
    
    invalid_date_df = date_df.where(date_df.validdatecheck.isNull())
    valid_date_df = date_df.where(date_df.validdatecheck.isNotNull())
    

    更新

    在 Spark 3.1 中,如果指定的日期时间模式无效,from_unixtimeunix_timestampto_unix_timestampto_timestampto_date 将失败。在 Spark 3.0 或更早版本中,它们的结果为 NULL。检查文档here

    要切换回以前的行为,您可以使用以下配置。

    spark.conf.set("spark.sql.legacy.timeParserPolicy", "LEGACY")
    

    【讨论】:

      猜你喜欢
      • 2020-07-07
      • 2020-06-17
      • 2020-07-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-03-21
      • 2016-07-25
      • 2017-09-08
      相关资源
      最近更新 更多