【发布时间】:2017-08-06 21:52:58
【问题描述】:
我有两个 rdd 需要将它们连接在一起。它们如下所示:
RDD1
[(u'2', u'100', 2),
(u'1', u'300', 1),
(u'1', u'200', 1)]
RDD2
[(u'1', u'2'), (u'1', u'3')]
我想要的输出是:
[(u'1', u'2', u'100', 2)]
所以我想从 RDD2 中选择具有相同第二个 RDD1 值的那些。我尝试过加入,也尝试过笛卡尔,但都没有工作,甚至没有接近我正在寻找的东西。我是 Spark 的新手,非常感谢你们的帮助。
谢谢
【问题讨论】:
-
你允许在这个解决方案中使用 Spark Dataframe 吗?