【发布时间】:2016-05-11 16:19:39
【问题描述】:
我尝试匹配两个 RDD: RDD1 包含大量单词 [String],RDD2 包含城市名称 [String]。
我想返回一个 RDD,其中包含 RDD1 中 RDD2 中的元素。
类似于subtract 的反面。
之后我想计算每个剩余单词的出现次数,但这不是问题。
谢谢
【问题讨论】:
-
你的意思是
intersection? -
从问题上看不清楚,但从“我想计算每个剩余单词的出现次数”我得出结论,每个字符串重复的数量很重要。
标签: scala apache-spark rdd