【发布时间】:2016-04-11 16:24:14
【问题描述】:
我是 Spark 的新手,下面的问题困扰了我一段时间。
我的输入文件是逗号分隔的文件,并创建了 RDD,其中 Store 作为键,促销列表作为值。一个键(我的案例产品)可以有多个值。 我已经使用 GroupByKey 对 RDD 进行了分组。它解决了我的问题,将所有促销活动置于同一密钥下。到这一切都很好。现在我想遍历每个键的值列表,以确定我的键(存储)是否有特定的促销。如果我的密钥找到该促销,则使用 store(key) 和 Promotion(value) 写入记录
val firstRDD = sc.textFile(".....")
val secondRDD = firstRDD.map(line=>line.split(",")(0),line.split(",")(1))
val thirdRDD = secondRDD.groupByKey()
(1,(aaa,bbb,ccc,ddd))
(2,(aaa,ccc))
(3,(ddd,aaa))
根据上面的列表,我想知道键 1 值 aaa 是否存在,如果不存在 aaa,则 bbb 是否存在。如何在 Spark Scala 中执行此操作。
【问题讨论】:
-
在使用 map 之前将其视为基本的 Scala 操作。如果你有一个元组,你将如何处理它以获得你想要的?
标签: scala apache-spark