【问题标题】:use pyspark foreachpartition but retain partition specific variables使用 pyspark foreachpartition 但保留分区特定变量
【发布时间】:2017-09-20 07:25:18
【问题描述】:

我有一个要求,每个 spark worker 在迭代之间保留其变量。该变量是一个太大的结构,无法包含在每个 RDD 中。我可以使用foreachpartition,但是没有机制可以为每个分区传递一次变量(然后再将其传递回去)。即使使用相同的 id,对分区的调用之间也没有连续性。重复广播太贵了。有谁知道解决这个问题的方法?

【问题讨论】:

  • Apache Ignite 能解决这个问题吗?

标签: apache-spark partition


【解决方案1】:

您可以发送这些变量的数组并使用 partition_id 访问这些值以保持连续性。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-03-07
    • 1970-01-01
    • 2015-06-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多