【发布时间】:2016-10-28 16:05:34
【问题描述】:
在我的公司,我们使用新旧机器的组合拼凑了一个非常异构的 YARN + Spark 集群。由于单个机器的统计数据差异很大,我希望能够在更大的机器上启动多个执行器。将--num-executors 设置为高于集群中的机器数不起作用。是否需要更改其他设置才能启用此功能,还是不可能?
【问题讨论】:
标签: apache-spark hadoop-yarn executors
在我的公司,我们使用新旧机器的组合拼凑了一个非常异构的 YARN + Spark 集群。由于单个机器的统计数据差异很大,我希望能够在更大的机器上启动多个执行器。将--num-executors 设置为高于集群中的机器数不起作用。是否需要更改其他设置才能启用此功能,还是不可能?
【问题讨论】:
标签: apache-spark hadoop-yarn executors
传递 --executor-cores 选项。这应该是〜4以获得良好的性能: http://www.datarpm.com/resources/achieving-optimal-performance-with-apache-spark1-5/
这将在 4 核机器上启动一个执行器,在 16 核机器上启动 4 个执行器。
【讨论】:
--executor-cores 设置为 2,但我仍然在所有机器上只有一个执行程序,包括具有 32 个内核的机器。