【发布时间】:2018-09-09 12:44:06
【问题描述】:
我是 Apache-spark 的新手,最近开始使用 Scala 进行编码。
我有一个包含 4 列的 RDD,如下所示: (第 1 列 - 名称,2 - 标题,3 - 视图,4 - 大小)
aa File:Sleeping_lion.jpg 1 8030
aa Main_Page 1 78261
aa Special:Statistics 1 20493
aa.b User:5.34.97.97 1 4749
aa.b User:80.63.79.2 1 4751
af Blowback 2 16896
af Bluff 2 21442
en Huntingtown,_Maryland 1 0
我想根据 Column Name 进行分组并获得 Column 视图的总和。
应该是这样的:
aa 3
aa.b 2
af 2
en 1
我曾尝试使用groupByKey 和reduceByKey,但我被卡住了,无法继续。
【问题讨论】:
-
如果 “我是 Apache-spark 的新手,最近开始使用 Scala 进行编码。”,你为什么要赌 RDD API?为什么不使用 Spark SQL 的 Dataframe API?
-
我在下面改进了我的答案,包括两种实现结果的替代方法。
标签: scala apache-spark rdd