【发布时间】:2017-08-27 19:53:50
【问题描述】:
forEachAsync 与 forEachPartitionAsync 有什么区别?
如果我在这里猜测,我会说以下内容,但如果我错了,请纠正我。forEachAsync 只是以异步方式一个一个地遍历所有分区中的值
forEachPartitionAsync:扇出每个分区,并在不同的工作人员之间并行运行每个分区的 lambda。此处的 lambda 将以异步方式逐个迭代该分区中的值
但是等等,rdd 操作实际上应该并行执行,对吧?所以如果我调用 rdd.forEachAsync 也应该并行执行,不是吗?我想我有点困惑 forEachAsync 与 forEachPartitionAsync 之间的真正区别是什么?除了分别将 Tuple vs Iterator of Tuple 传递给 lambda 之外。
【问题讨论】:
标签: apache-spark