【发布时间】:2017-12-07 23:44:50
【问题描述】:
我有一个在 pyspark 中使用的广播变量,我想知道我有多少可用空间。
我知道广播变量保留在spark.executor.memory 内,但它是否必须适合存储范围?还是处理的范围?
我知道spark.memory.fraction 用于确定spark.executor.memory 用于存储的比例与用于处理的数量。但是,假设我的 spark.executor.memory 是 10GB,spark.memory.fraction 是 0.75。
广播变量是否必须小于2.5GB 或小于5GB?
这是 pyspark 1.6.1。
另外,这里有一个资源可以用作参考点:https://0x0fff.com/spark-memory-management/
我不明白那篇文章中的“用户内存”是什么。
EDIT :作为这个问题的扩展,很高兴知道cached 表的存储位置。那些和广播变量在同一个地方吗?或不同的地方?在我看来,这些都在 spark.memory.storageFraction 内部。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql spark-dataframe