如何按元素合并两个 RDD

【问题标题】：How to merge element-wise two RDDs如何按元素合并两个 RDD
【发布时间】：2016-01-03 08:20:39
【问题描述】：

假设我有两个类似的 RDD

第一

秒

新的 RDD 将是

所以，这基本上是元素明智的合并...我们假设两个 RDD 大小相同。

【问题讨论】：

标签： python apache-spark pyspark rdd

【解决方案1】：

您可以使用 Spark 的 zip 函数。根据文档：

>>> x = sc.parallelize(range(0,5))
>>> y = sc.parallelize(range(1000, 1005))
>>> x.zip(y).collect()
[(0, 1000), (1, 1001), (2, 1002), (3, 1003), (4, 1004)]

请注意，此函数假定两个 RDD 中的分区数和元素数相同。

【讨论】：