【发布时间】:2015-06-22 23:04:33
【问题描述】:
我对 Apache Spark 完全陌生,我正在尝试对两个 RDD 进行笛卡尔积。例如,我有 A 和 B 之类的:
A = {(a1,v1),(a2,v2),...}
B = {(b1,s1),(b2,s2),...}
我需要一个新的 RDD,例如:
C = {((a1,v1),(b1,s1)), ((a1,v1),(b2,s2)), ...}
知道我该怎么做吗?尽可能简单:)
提前致谢
PS:我终于按照@Amit Kumar 的建议这样做了:
cartesianProduct = A.cartesian(B)
【问题讨论】:
标签: python apache-spark dot-product