【问题标题】:Check if arraytype column contains null检查 arraytype 列是否包含 null
【发布时间】:2017-06-01 12:36:35
【问题描述】:

我有一个数据框,其中有一列 arraytype 可以包含整数值。如果没有值,它将只包含一个,它将是空值

重要:注意该列不会为空,而是一个具有单个值的数组;空

> val df: DataFrame  = Seq(("foo", Seq(Some(2), Some(3))), ("bar", Seq(None))).toDF("k", "v")
df: org.apache.spark.sql.DataFrame = [k: string, v: array<int>]
> df.show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
|bar|[null]|

问题:我想获取具有空值的行。


到目前为止我已经尝试过什么:

> df.filter(array_contains(df("v"), 2)).show()
+---+------+
|  k|     v|
+---+------+
|foo|[2, 3]|
+---+------+

为null,好像不行

> df.filter(array_contains(df("v"), null)).show()

org.apache.spark.sql.AnalysisException:无法解析 'array_contains(v, NULL)' 由于数据类型不匹配:空类型 值不能用作参数;

> df.filter(array_contains(df("v"), None)).show()

java.lang.RuntimeException: 不支持的文字类型类 scala.None$ 无

【问题讨论】:

    标签: scala apache-spark dataframe null apache-spark-sql


    【解决方案1】:

    在这种情况下不能使用array_contains,因为无法比较 SQL NULL 是否相等。

    你可以像这样使用udf

    val contains_null = udf((xs: Seq[Integer]) => xs.contains(null))
    
    df.where(contains_null($"v")).show
    
    // +---+------+
    // |  k|     v|
    // +---+------+
    // |bar|[null]|
    

    【讨论】:

      【解决方案2】:

      对于 Spark 2.4+,可以使用高阶函数 exists 代替 UDF:

      df.where("exists(v, x -> x is null)").show
      
      //+---+---+
      //|  k|  v|
      //+---+---+
      //|bar| []|
      //+---+---+
      

      【讨论】:

        【解决方案3】:

        PySpark 实现(如果需要):

        contains_null = f.udf(lambda x: None in x, BooleanType())
        df.filter(contains_null(f.col("v"))).show()
        

        【讨论】:

          猜你喜欢
          • 2020-05-25
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2019-04-04
          • 2013-05-28
          • 1970-01-01
          • 1970-01-01
          • 2012-02-05
          相关资源
          最近更新 更多