Spark Dataset 聚合类似于 RDD 聚合(零)(accum, combiner)

【问题标题】：Spark Dataset aggregation similar to RDD aggregate(zero)(accum, combiner)Spark Dataset 聚合类似于 RDD 聚合(零)(accum, combiner)
【发布时间】：2017-07-11 18:05:18
【问题描述】：

RDD 有一个非常有用的方法聚合，它允许累积一些零值并跨分区组合。有没有办法用Dataset[T] 做到这一点。就我通过 Scala 文档看到的规范而言，实际上没有什么可以做到这一点。即使是 reduce 方法也只允许对以 T 作为两个参数的二元运算进行操作。有什么理由吗？如果有什么东西可以做同样的事情？

非常感谢！

【问题讨论】：

标签： scala apache-spark apache-spark-sql rdd apache-spark-dataset

【解决方案1】：

在Dataset API 中有两个不同的类可用于实现类似aggregate 的行为：

UserDefinedAggregateFunction 使用SQL 类型并将Columns 作为输入。

初始值使用initialize 方法定义，seqOp 使用update 方法定义，combOp 使用merge 方法定义。

示例实现：How to define a custom aggregation function to sum a column of Vectors?
Aggregator 使用标准 Scala 类型和 Encoders 并将记录作为输入。

初始值使用zero 方法定义，seqOp 使用reduce 方法定义，combOp 使用merge 方法定义。

示例实现：How to find mean of grouped Vector columns in Spark SQL?

两者都提供了额外的终结方法（分别为evaluate 和finish），用于生成最终结果，可用于全局聚合和按键聚合。

【讨论】：