【发布时间】:2022-01-18 05:55:48
【问题描述】:
假设我有两个 RDDS 我想逐个比较:
data1 = [1,2,3]
rdd1 = spark.sparkContext.parallelize(data1)
data2 = [7,8,9]
rdd2 = spark.sparkContext.parallelize(data2)
将它们按元素相乘以得到以下数组的最佳方法是什么?
rdd3 = [[7,8,9], [14,16,18], [21,24,27]]
我感觉这是一个连接操作,但我不确定如何设置键值对。
【问题讨论】:
标签: apache-spark join pyspark rdd distributed-computing