匹配两个 RDD [字符串]答案

【问题标题】：Match two RDDs [String]匹配两个 RDD [字符串]
【发布时间】：2016-05-11 16:19:39
【问题描述】：

我尝试匹配两个 RDD： RDD1 包含大量单词 [String]，RDD2 包含城市名称 [String]。

我想返回一个 RDD，其中包含 RDD1 中 RDD2 中的元素。类似于subtract 的反面。

之后我想计算每个剩余单词的出现次数，但这不是问题。

谢谢

【问题讨论】：

你的意思是intersection？
从问题上看不清楚，但从“我想计算每个剩余单词的出现次数”我得出结论，每个字符串重复的数量很重要。

标签： scala apache-spark rdd

【解决方案1】：

我想返回一个包含 RDD1 中 RDD2 中的元素的 RDD

如果我猜对了：

rdd1.subtract(rdd2.subtract(rdd1))

注意这段代码和intersection的区别：

val rdd1 = sc.parallelize(Seq("a", "a", "b", "c"))
val rdd2 = sc.parallelize(Seq("a", "c", "d"))
val diff = rdd1.subtract(rdd2)
rdd1.subtract(diff).collect()
res0: Array[String] = Array(a, a, c)
rdd1.intersection(rdd2).collect()
res1: Array[String] = Array(a, c)

因此，如果您的第一个 RDD 包含重复项，并且您的目标是考虑这些重复项，您可能更喜欢双 subtract 解决方案。否则，intersection 非常适合。

【讨论】：

没错，对我们来说重复很重要，这就是我们不能使用 distinct 的原因。非常感谢你 :) 你让三个学生真的很开心
我们只是没有想到内在的转变。 :)