【发布时间】:2017-01-09 21:27:15
【问题描述】:
我需要一个 UDF2,它接受两个参数作为输入,对应于 String 和 mllib.linalg.Vector 类型的两个 Dataframe 列,并返回一个 Tuple2。这是可行的吗?如果是,我该如何注册这个 udf()?
hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);
udf定义如下:
UDF2<String, org.apache.spark.mllib.linalg.Vector, Tuple2<String, org.apache.spark.mllib.linalg.Vector>> get_item_data =
(String id, org.apache.spark.mllib.linalg.Vector features) -> {
return new Tuple2<>(id, features);
};
【问题讨论】:
标签: java apache-spark apache-spark-sql user-defined-functions