【问题标题】:How to join multiple RDDs in pyspark without converting to DF如何在不转换为 DF 的情况下在 pyspark 中加入多个 RDD
【发布时间】:2017-05-21 02:47:39
【问题描述】:

我想加入三个 RDD (x,y,z)。所有三个 RDD 的第一个元素是用于连接的键。

我知道如何加入两个:

rdd1 = x.map(lambda r: (r[0], r[1:]))
rdd2 = y.map(lambda r: (r[0], r[1:]))
rdd1_rdd2 = rdd1.join(rdd2)

如何将第三个 RDD z 加入 rdd1_rdd2?

【问题讨论】:

    标签: join pyspark rdd


    【解决方案1】:

    只需添加另一个连接并将结果展平:

    rdd1_rdd2.join(rdd3).mapValues(lambda x: x[0] + (x[1], ))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-12-06
      • 2020-04-29
      • 2016-08-21
      • 2021-06-29
      • 2018-09-14
      • 1970-01-01
      • 2019-03-01
      相关资源
      最近更新 更多