【发布时间】:2020-03-26 17:52:16
【问题描述】:
我有一个 RDD[(String, List[String])]
我想为每条记录循环遍历 RDD 中的列表。 有可能吗?
RDD has this data
(4,List(5, 6, 7, 1, 3))
(8,List(9, 5, 7))
(5,List(8, 9, 6, 4))
(9,List(5, 10, 8))
(1,List(4, 3))
(6,List(5, 4, 2, 3, 10))
(2,List(3, 6))
(7,List(10, 8, 4))
(3,List(4, 6, 1, 2))
(10,List(6, 7, 9))
我想获得此列表中键的 2 跳投影。对于值列表中的每个元素,都应该从 RDD 中附加其自己的列表。
第一个列表项的结果 RDD 应该是
(4,List((5,List(8, 9, 6, 4)), (6,List(5, 4, 2, 3, 10)), (7,List(10, 8, 4)), (1,List(4, 3)), (3,List(4, 6, 1, 2))))
这里的(5,List(8, 9, 6, 4) 又取自RDD
所有记录都类似
【问题讨论】:
-
“有可能” - 是的,为什么不呢?你试过了吗?你有错误吗?如果是这样,哪个错误?或者您可能没有产生和错误,但也没有产生预期的行为,如果是这样,那么预期的行为是什么以及真正发生了什么?你能给我们一个MCVE吗?
-
这是一种不好的做法。因为 RDD 是为数据处理而设计的,但
foreach不是为数据处理而设计的。主要是为了副作用。您将出于什么目的使用 foreach? -
我不理解预期的输出,也不理解你想要做的处理的解释......但无论如何,如果你想转换一些你使用
map而不是foreach的东西/跨度> -
@LuisMiguelMejíaSuárez 我已经更新了我的问题。
-
@BorisAzanov 更新问题
标签: scala apache-spark mapreduce