【问题标题】:Can I return a Tuple2 from an apache spark UDF (in java)?我可以从 apache spark UDF(在 java 中)返回 Tuple2 吗?
【发布时间】:2017-01-09 21:27:15
【问题描述】:

我需要一个 UDF2,它接受两个参数作为输入,对应于 String 和 mllib.linalg.Vector 类型的两个 Dataframe 列,并返回一个 Tuple2。这是可行的吗?如果是,我该如何注册这个 udf()?

hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);

udf定义如下:

UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark.mllib.linalg.Vector>> get_item_data =
            (String id, org.apache.spark.mllib.linalg.Vector features) -> {
        return new Tuple2<>(id, features);
    };

【问题讨论】:

    标签: java apache-spark apache-spark-sql user-defined-functions


    【解决方案1】:

    有一个schema,可以定义如下:

    import org.apache.spark.sql.types.DataType;
    import org.apache.spark.sql.types.DataTypes;
    import org.apache.spark.mllib.linalg.VectorUDT;
    
    List<StructField> fields = new ArrayList<>();
    fields.add(DataTypes.createStructField("id", DataTypes.StringType, false));
    fields.add(DataTypes.createStructField("features", new VectorUDT(), false));
    DataType schema = DataTypes.createStructType(fields);
    

    但如果您只需要一个 struct 而没有任何额外的处理 org.apache.spark.sql.functions.struct 应该可以解决问题:

    df.select(struct(col("id"), col("features"));
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-02-05
      • 1970-01-01
      • 1970-01-01
      • 2017-04-26
      • 2017-05-21
      • 2017-06-08
      • 1970-01-01
      相关资源
      最近更新 更多