【发布时间】:2017-02-01 00:25:02
【问题描述】:
在 Spark 中,我想按两个不同的字段对 RDD 进行排序。例如,在这里给出的示例中,我想首先按fieldA 对元素进行排序,然后在其中按fieldB 排序(二次排序)。给定示例中采用的方法是否足够好?我已经测试了我的代码并且它可以工作。但这是一种可靠的方法吗?
// x is of type (key, fieldA) and y of type (key, fieldB)
val a = x.sortBy(_._2)
// b will be of type (key, (fieldB, fieldA))
val b = y.join(x).sortBy(_._2._1))
所以,例如,我想要一个如下所示的输出。
fieldA, fieldB
2, 10
2, 11
2, 13
7, 5
7, 7
7, 8
9, 3
9, 10
9, 10
【问题讨论】:
标签: scala sorting apache-spark rdd