【问题标题】:Which method shall be used to handle such situation in spark RDD. Explain?在 spark RDD 中应该使用哪种方法来处理这种情况。解释?
【发布时间】:2020-12-22 14:52:54
【问题描述】:

在从另一个 RDD rdd0 进行大量计算之后,您正在创建一个 RDD rdd1。然后我们需要经常使用rdd1。 rdd1 的大小非常小,我们在每个容器上都有足够的 RAM 可用。在 spark RDD 中应该使用哪种方法来处理这种情况。解释一下?

【问题讨论】:

    标签: apache-spark pyspark rdd


    【解决方案1】:

    使用cache将计算结果缓存在内存中,这样就不需要重新计算了:

    rdd1 = # operations on rdd0
    rdd1.cache()
    

    【讨论】:

      猜你喜欢
      • 2011-01-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-12-16
      • 2015-09-11
      • 1970-01-01
      相关资源
      最近更新 更多