【发布时间】:2016-04-27 14:32:18
【问题描述】:
我有 2 个使用以下代码提取的 RDD:
val fileA = sc.textFile("fileA.txt")
val fileB = sc.textFile("fileB.txt")
然后我通过键映射和减少它:
val countsB = fileB.flatMap(line => line.split("\n"))
.map(word => (word, 1))
.reduceByKey(_+_)
val countsA = fileA.flatMap(line => line.split("\n"))
.map(word => (word, 1))
.reduceByKey(_+_)
如果 countA 中存在键,我现在不想查找并删除 countB 中的所有键
我尝试过类似的方法:
countsB.keys.foreach(b => {
if(countsB.collect().exists(_ == b)){
countsB.collect().drop(countsB.collect().indexOf(b))
}
})
但它似乎并没有通过密钥删除它们。
【问题讨论】:
-
不是完全相同的问题,但您可能会在这里找到答案:stackoverflow.com/questions/35527765/…
标签: scala apache-spark rdd