【发布时间】:2017-09-20 07:25:18
【问题描述】:
我有一个要求,每个 spark worker 在迭代之间保留其变量。该变量是一个太大的结构,无法包含在每个 RDD 中。我可以使用foreachpartition,但是没有机制可以为每个分区传递一次变量(然后再将其传递回去)。即使使用相同的 id,对分区的调用之间也没有连续性。重复广播太贵了。有谁知道解决这个问题的方法?
【问题讨论】:
-
Apache Ignite 能解决这个问题吗?
我有一个要求,每个 spark worker 在迭代之间保留其变量。该变量是一个太大的结构,无法包含在每个 RDD 中。我可以使用foreachpartition,但是没有机制可以为每个分区传递一次变量(然后再将其传递回去)。即使使用相同的 id,对分区的调用之间也没有连续性。重复广播太贵了。有谁知道解决这个问题的方法?
【问题讨论】:
您可以发送这些变量的数组并使用 partition_id 访问这些值以保持连续性。
【讨论】: