【发布时间】:2017-11-08 08:16:15
【问题描述】:
我有一个使用rdd的请求:
val test = Seq(("New York", "Jack"),
("Los Angeles", "Tom"),
("Chicago", "David"),
("Houston", "John"),
("Detroit", "Michael"),
("Chicago", "Andrew"),
("Detroit", "Peter"),
("Detroit", "George")
)
sc.parallelize(test).groupByKey().mapValues(_.toList).foreach(println)
结果是:
(纽约,名单(杰克))
(底特律,名单(迈克尔,彼得,乔治))
(洛杉矶,名单(汤姆))
(休斯顿,列表(约翰))
(芝加哥,列表(大卫,安德鲁))
如何在 spark2.0 中使用数据集?
我有办法使用自定义函数,但是感觉好复杂,有没有简单点的方法?
【问题讨论】:
标签: apache-spark dataset apache-spark-2.0