【发布时间】:2016-02-12 15:27:48
【问题描述】:
我无法找到我的广播变量的大小。由于推动了集群的内存限制,这与我的项目有关。集群在 YARN 上运行。在应用程序管理器中,我可以看到各个执行程序和驱动程序的内存使用情况,但我认为这些只是持久化的 RDDS。
【问题讨论】:
-
广播数据只是一个普通的 Python 对象。它不占用任何特殊空间AFAIK。您应该能够简单地估计它的本地大小(
sys.getsizeof对于本地对象应该足够了)大小并将其乘以执行器的数量。
标签: python apache-spark pyspark