【问题标题】:how to populate select clause of dataframe dynamically? giving AnalysisException如何动态填充数据框的选择子句?给出 AnalysisException
【发布时间】:2020-04-27 09:46:36
【问题描述】:

我正在使用 spark-sql 2.4.1 和 java 8。

 val country_df = Seq(
    ("us",2001),
    ("fr",2002),
    ("jp",2002),
    ("in",2001),
    ("fr",2003),
    ("jp",2002),
    ("in",2003)
    ).toDF("country","data_yr")

> val col_df = country_df.select("country").where($"data_yr" === 2001)

    val data_df = Seq(
    ("us_state_1","fr_state_1" ,"in_state_1","jp_state_1"),
    ("us_state_2","fr_state_2" ,"in_state_2","jp_state_1"),
    ("us_state_3","fr_state_3" ,"in_state_3","jp_state_1")
    ).toDF("us","fr","in","jp")

> data_df.select("us","in").show()

如何从给定年份的 country_df 动态填充此 select 子句(data_df)?

即从第一个数据框,我会得到列的值,那些是 我需要从第二个数据名中选择的列。怎么会这样 完成了吗?

试过这个:

List<String> aa = col_df.select(functions.lower(col("data_item_code"))).map(row -> row.mkString(" ",", "," "), Encoders.STRING()).collectAsList();
 data_df.select(aa.stream().map(s -> new Column(s)).toArray(Column[]::new));

错误:

.AnalysisException: cannot resolve '` un `' given input columns: [abc,.....all columns ...]

那么这里出了什么问题,以及如何解决这个问题?

【问题讨论】:

    标签: java dataframe apache-spark apache-spark-sql


    【解决方案1】:

    你可以试试下面的代码。

    从第一个数据集中选择列名。

    List<String> columns = country_df.select("country").where($"data_yr" === 2001).as(Encoders.STRING()).collectAsList();
    

    在第二个数据集中使用 selectexpr 中的列名。

    public static Seq<String> convertListToSeq(List<String> inputList) {
            return JavaConverters.asScalaIteratorConverter(inputList.iterator()).asScala().toSeq();
    }
    
    
    //using selectExpr
    data_df.selectExpr(convertListToSeq(columns)).show(true);
    

    【讨论】:

      【解决方案2】:
      scala> val colname = col_df.rdd.collect.toList.map(x => x(0).toString).toSeq
      
      scala> data_df.select(colname.head, colname.tail: _*).show()
      +----------+----------+
      |        us|        in|
      +----------+----------+
      |us_state_1|in_state_1|
      |us_state_2|in_state_2|
      |us_state_3|in_state_3|
      +----------+----------+
      

      【讨论】:

      • 我没有看到任何总和列都在字符串和年份中。能否请您具体说明一下此案。
      【解决方案3】:

      使用 pivot 可以像这样直接将值作为列名获取:

      val selectCols = col_df.groupBy().pivot($"country").agg(lit(null)).columns
      data_df.select(selectCols.head, selectCols.tail: _*)
      

      【讨论】:

      • groupBy() 按所有列分组,agg(lit(null)) 只是为了在数据透视后取回一个 DataFrame,lit(null) 因为我们在这里不需要任何数据,除了列名。
      猜你喜欢
      • 2016-10-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-01-19
      • 2011-01-08
      • 2019-07-13
      相关资源
      最近更新 更多