【发布时间】:2021-01-28 09:19:10
【问题描述】:
问题,请用Java(不是scala或python)给出任何解决方案
我有一个包含以下数据的 DataFrame
colA, colB
23,44
24,64
我想要的是这样的数据框
colA, colB, colC
23,44, result of myFunction(23,24)
24,64, result of myFunction(23,24)
基本上我想在 java 中的数据框中添加一列,其中新列的值是通过将 colA 和 colB 的值放入一个返回字符串的复杂函数来找到的。
这是我尝试过的,但 complexFunction 的参数似乎只是名称“colA”,而不是 colA 中的值。
myDataFrame.withColumn("ststs", (complexFunction(myDataFrame.col("colA")))).show();
【问题讨论】:
-
这正是 Spark 中用户定义函数 (UDF) 的用途:参见 spark.apache.org/docs/latest/sql-ref-functions-udf-scalar.html 或 stackoverflow.com/questions/25031129/…
标签: java dataframe apache-spark apache-spark-sql