【发布时间】:2019-05-05 04:50:18
【问题描述】:
我需要在两个文件中找到相同的单词。我使用火花,Java。
任务: 对于两个文本文件,计算在第一个文件和第二个文件中同时出现的单词数。结果以键值对的形式保存到文件中,其中 key 是常用词的数量,value 是词本身。
问题: 如何正确地做到这一点? 我首先使用 wordcount 在第一个文件中找到单词和该单词的出现次数,与第二个文件类似。 如何将它们组合起来,只留下第一个和第二个之间的共同点?
我加入他们,我得到了这个: (测试,(1,1)) (火花,(1,2))
我需要至少获得两个值,即 (测试,1) (火花,1)
如何正确操作?
【问题讨论】:
标签: java apache-spark mapreduce