【发布时间】:2018-01-03 12:25:13
【问题描述】:
我正在尝试在 Spark 中编写一些注重性能的代码,并且想知道是否应该为 Dataframe 上的汇总操作编写 Aggregator 或 User-defined Aggregate Function (UDAF)。
我无法在任何地方找到任何有关这些方法的速度以及您应该在 spark 2.0+ 中使用哪种方法的数据。
【问题讨论】:
-
您在考虑什么“汇总操作”? Spark SQL 已经支持
rollup聚合。 -
@JacekLaskowski 嗨,Jacek,这就是我的意思,使用
rollup但带有自定义聚合函数。
标签: performance apache-spark spark-dataframe aggregate-functions apache-spark-2.0