【问题标题】:How big can my spark RDD joins be?我的 spark RDD 连接可以有多大?
【发布时间】:2018-08-17 23:56:45
【问题描述】:

我有 100 个执行程序,每个执行程序有 4 GB 内存,每个执行程序节点有 10 GB 磁盘空间。我在 Spark 中的 RDD 或 DF 连接的最大大小是多少?

我假设我的组合输入的最大大小只能小于 (100 * 4 + 100 * 10)GB。就是 1400GB。对吗?

【问题讨论】:

  • 我很困惑...如果您有 10GB 的磁盘和只有 4GB 的 RAM,您将如何填充内存+溢出到磁盘的数据比硬件中可用的数据多?换句话说,您不会乘以任何东西,因为您受到最小可用执行程序的限制,它可能会在连接期间因内存不足异常而死。

标签: apache-spark dataframe rdd


【解决方案1】:

1400GB 不能是您的最大大小。您必须考虑占用一些空间的临时文件,以及需要一些内存和空间才能运行的其他服务。

【讨论】:

    猜你喜欢
    • 2016-06-23
    • 2015-06-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-11-16
    • 1970-01-01
    • 2015-10-04
    • 2015-04-21
    相关资源
    最近更新 更多