【发布时间】:2019-11-14 23:22:31
【问题描述】:
假设我正在使用具有 2 个 i3.metal 实例的集群,每个实例具有 512GiB 内存和 72 个 vCPU 内核 (source)。如果我想使用所有的核心,我需要对执行器和每个执行器的核心进行一些配置,这样我就有 144 个核心。似乎有很多选择;例如,我可以有 72 个执行器,每个执行器有 2 个核心,或者我可以有 36 个执行器,每个执行器有 4 个核心。无论哪种方式,我最终都会得到相同数量的内核和每个内核相同的内存量。
如何在这两种配置或更多可用配置之间进行选择?两者在功能上有区别吗?
我已阅读 Cloudera's blog post 关于 spark 作业的参数调整,但它没有回答这个问题。我也搜索过相关帖子,但同样没有找到这个问题的答案。
this post 中顶部答案上的 cmets 表示没有单一答案,应针对每项工作进行调整。如果是这种情况,我将不胜感激任何“普遍智慧”!
【问题讨论】:
标签: apache-spark parallel-processing executor