【问题标题】:Spark Dataset aggregation similar to RDD aggregate(zero)(accum, combiner)Spark Dataset 聚合类似于 RDD 聚合(零)(accum, combiner)
【发布时间】:2017-07-11 18:05:18
【问题描述】:

RDD 有一个非常有用的方法聚合,它允许累积一些零值并跨分区组合。有没有办法用Dataset[T] 做到这一点。就我通过 Scala 文档看到的规范而言,实际上没有什么可以做到这一点。即使是 reduce 方法也只允许对以 T 作为两个参数的二元运算进行操作。有什么理由吗?如果有什么东西可以做同样的事情?

非常感谢!

VK

【问题讨论】:

    标签: scala apache-spark apache-spark-sql rdd apache-spark-dataset


    【解决方案1】:

    Dataset API 中有两个不同的类可用于实现类似aggregate 的行为:

    两者都提供了额外的终结方法(分别为evaluatefinish),用于生成最终结果,可用于全局聚合和按键聚合。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-04-07
      • 2023-03-08
      • 2020-08-01
      • 1970-01-01
      • 2021-03-05
      • 2017-08-14
      • 1970-01-01
      • 2018-05-17
      相关资源
      最近更新 更多