【发布时间】:2017-03-14 02:32:36
【问题描述】:
我被一个特定的 scala-spark 语法困住了,我希望你能引导我走向正确的方向。
如果 RDD1 是 Array[((Float, Float, Float), Long)] 类型,
RDD1.collect = Array((x1,y1,z1),1), ((x2,y2,z2),2), ((x3,y3,y3),3), ...)
RDD2 是索引,类型为 Array[Long],
RDD2.collect = Array(1, 3, 5...)
从 RDD1 中提取其索引出现在 RDD2 中的值的最佳方法是什么。 IE, 输出,Array((x1,y1,z1),1), ((x3,y3,y3),3),(x5,y5,y5),5) ...)
RDD1 和 RDD2 都足够大,我想避免使用 .collect。否则,问题只是在 2 个 scala 数组/列表中找到相交的元素。
非常感谢您的帮助!
【问题讨论】:
标签: scala apache-spark rdd