【发布时间】:2018-08-17 23:56:45
【问题描述】:
我有 100 个执行程序,每个执行程序有 4 GB 内存,每个执行程序节点有 10 GB 磁盘空间。我在 Spark 中的 RDD 或 DF 连接的最大大小是多少?
我假设我的组合输入的最大大小只能小于 (100 * 4 + 100 * 10)GB。就是 1400GB。对吗?
【问题讨论】:
-
我很困惑...如果您有 10GB 的磁盘和只有 4GB 的 RAM,您将如何填充内存+溢出到磁盘的数据比硬件中可用的数据多?换句话说,您不会乘以任何东西,因为您受到最小可用执行程序的限制,它可能会在连接期间因内存不足异常而死。
标签: apache-spark dataframe rdd