【发布时间】:2016-02-20 16:19:53
【问题描述】:
我有一个包含文件行的 RDD。我希望每个分区不包含行,但包含连接的行。例如:
Partition 1 Partition 2
line 1 line n/2+1
line 2 line n/2+2
. .
. .
. .
line n/2 line n
上面的图 1 显示了我的 RDD,它是在我们使用 sc.textFile() 方法时产生的。我想从上图1转到下图(图2):
Partition 1 Partition 2
concatenatedLinesFrom1toN/2 concatenatedLinesFromN/2+1toN
有什么方法可以映射分区,以便我可以将 RDD 从图 1 转换为图 2 中的那个?
【问题讨论】:
标签: scala apache-spark