【发布时间】:2018-12-07 22:46:58
【问题描述】:
我是 Pyspark 的新手,请考虑 :)
基本上我有这两个文本文件:
文件1:
1,9,5
2,7,4
3,8,3
文件2:
1,g,h
2,1,j
3,k,i
还有 Python 代码:
file1 = sc.textFile("/user/cloudera/training/file1.txt").map(lambda line: line.split(","))
file2 = sc.textFile("/user/cloudera/training/file2.txt").map(lambda line: line.split(","))
现在做这个加入:
join_file = file1.join(file2)
我希望得到这个:
(1,(9,5),(g,h))
(2,(7,4),(i,j))
(3,(8,3),(k,1))
但是,我得到了不同的结果:
(1, (9,g))
(3, (8,k))
(2, (7,1))
我是否缺少关于加入的任何参数?
谢谢!
【问题讨论】:
-
希望不是策略。你需要有 k, v 元组。