【发布时间】:2017-11-21 06:09:54
【问题描述】:
我经常处理因超出内存限制而被 YARN 杀死的容器。我怀疑这与以低效的方式缓存/取消持久化 RDDS/数据帧有关。
调试此类问题的最佳方法是什么?
我查看了 Spark Web UI 中的“存储”选项卡,但“RDD 名称”没有比“MapPartitionsRDD”或“UnionRDD”更具描述性。如何确定哪些特定 RDD 在缓存中占用的空间最多?
为了找出内存不足错误,我需要找出哪些 RDD 在缓存中占用的空间最多。我还希望能够跟踪它们何时不持久。
【问题讨论】:
标签: apache-spark