【发布时间】:2015-08-29 22:06:18
【问题描述】:
我有一组点(每个点都是文本文件中的一行),它们分布在 Spark 的分区之间。
我使用 mapPartitions 操作,它在每个分区中得到一半的点(并不重要为什么和如何)。
现在,我想成对合并分区,因此分区 #1 和 #2 将是合并分区,分区 #3 和 #4 将是第二个合并分区,依此类推。
我将继续运行 mapPartitions,直到我只留下几个分区。 如何使用 Spark 做到这一点?
这里与 Hadoop 的类似物是我成对合并输出文件并再次运行任务。
我会再次澄清一下:我有 x 个分区,在我运行 mapPartitions 之后, 我想成对合并它们,所以我会有 x/2 个分区并再次运行 mapPartitions 等等..
【问题讨论】:
-
如果您投反对票,很高兴知道原因。
标签: apache-spark