【发布时间】:2021-04-24 03:07:52
【问题描述】:
我正在努力掌握 Spark 中缓存的用例。我将这个概念理解为“它只将 RDD 保存到内存中”,但是一旦执行操作,这不是已经完成了吗?
假设我读取了一个文本文件并将 RDD 命名为“df”,然后运行 count() 作为我的操作。通过这样做,我已经将我的 RDD 保存在内存中,并且可以稍后调用,那么为什么或何时需要缓存我的 RDD?是否在使用过滤器的情况下(但过滤器返回一个可以存储为新变量的新RDD)?
感谢您的帮助:)
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql rdd