【发布时间】:2017-04-05 14:28:34
【问题描述】:
我们都知道 Spark 在内存中进行计算。我只是对以下内容感到好奇。
如果我从 HDFS 在我的 pySpark shell 中创建 10 个
RDD,这是否意味着所有这 10 个RDDs 数据都将驻留在 Spark Workers 内存中?如果我不删除
RDD,它会永远留在记忆中吗?如果我的数据集(文件)大小超过可用 RAM 大小,数据将存储在哪里?
【问题讨论】:
标签: hadoop apache-spark pyspark hdfs rdd