【发布时间】:2016-03-17 05:46:31
【问题描述】:
我想使用 spark-shell (scala) 对数据进行排序。
输入就像(编辑 - 第一列可以包含两个空格)
AQWD 11BC23 A12A
ZXDM 33QWSD CC12
DM EEZM33 FFZ2
我正在尝试使用 sc.textFile("input.txt")
现在我只想使用第一列对数据进行排序。 我知道我需要使用 sortByKey() 但我应该先应用哪个转换或操作才能使用 sortByKey() ?我收到错误 sortByKey is not member of rdd.RDD Array[String] 通过使用下面看起来不正确的代码
val lines = sc.textFile("input.txt")
val sort = lines.map(_.Split(" ")).sortByKey()
预期输出
DM 33QWSD CC12
AQWD 11BC23 A12A
BCDM EEZM33 FFZ2
由于空格的 ascii 值为 32,它将位于顶部,然后是剩余的排序数据。
【问题讨论】:
标签: scala sorting apache-spark