【发布时间】:2015-02-08 07:37:30
【问题描述】:
有没有办法在 spark 中连接两个不同 RDDs 的数据集?
要求是 - 我使用具有相同列名的 scala 创建了两个中间 RDD,需要组合两个 RDD 的这些结果并缓存结果以访问 UI。如何在此处合并数据集?
RDD 的类型为 spark.sql.SchemaRDD
【问题讨论】:
-
你不能只用
++吗? -
@lmm 否。它将向 RDD 添加列。我需要向 RDD 添加行。我有两个具有相同列的 RDD,它们的记录需要合并到一个 RDD。
-
不,不会,我只是试了一下确定。
++使用两者的结果创建一个联合 RDD。
标签: scala apache-spark apache-spark-sql distributed-computing rdd