【发布时间】:2016-02-20 21:01:30
【问题描述】:
根据docs,collect_set 和collect_list 函数应该在 Spark SQL 中可用。但是,我无法让它工作。我正在使用Docker image 运行 Spark 1.6.0。
我正在尝试在 Scala 中执行此操作:
import org.apache.spark.sql.functions._
df.groupBy("column1")
.agg(collect_set("column2"))
.show()
并在运行时收到以下错误:
Exception in thread "main" org.apache.spark.sql.AnalysisException: undefined function collect_set;
也尝试使用pyspark,但也失败了。文档说明这些函数是 Hive UDAF 的别名,但我无法确定启用这些函数。
如何解决这个问题?谢谢!
【问题讨论】:
标签: apache-spark hive apache-spark-sql