【发布时间】:2015-11-20 00:42:10
【问题描述】:
我正在使用带有 python api 的 Spark 1.3.0。在转换庞大的数据帧时,我缓存了许多 DF 以加快执行速度;
df1.cache()
df2.cache()
一旦某些数据帧的使用结束并且不再需要,我如何从内存中删除 DF(或取消缓存它??)?
例如,df1 用于整个代码,而df2 用于少量转换,之后就不再需要它。我想强行删除df2 以释放更多内存空间。
【问题讨论】:
-
@Paul 记录一下,这实际上不是重复的原因是因为 DataFrame API 与 RDD API 不同。然而,这个方法调用在它们之间是共享的。
标签: apache-spark apache-spark-sql spark-streaming