【发布时间】:2017-07-11 18:05:18
【问题描述】:
RDD 有一个非常有用的方法聚合,它允许累积一些零值并跨分区组合。有没有办法用Dataset[T] 做到这一点。就我通过 Scala 文档看到的规范而言,实际上没有什么可以做到这一点。即使是 reduce 方法也只允许对以 T 作为两个参数的二元运算进行操作。有什么理由吗?如果有什么东西可以做同样的事情?
非常感谢!
VK
【问题讨论】:
标签: scala apache-spark apache-spark-sql rdd apache-spark-dataset