【发布时间】:2015-12-18 03:37:06
【问题描述】:
我正在 AWS-EMR 集群上运行我的工作。它是一个使用 cr1.8xlarge 实例的 40 节点集群。每个 cr1.8xlarge 有 240G 内存和 32 个内核。我可以使用以下配置运行:
--driver-memory 180g --driver-cores 26 --executor-memory 180g --executor-cores 26 --num-executors 40 --conf spark.default.parallelism=4000
或
--driver-memory 180g --driver-cores 26 --executor-memory 90g --executor-cores 13 --num-executors 80 --conf spark.default.parallelism=4000
由于来自job-tracker网站,同时运行的任务数量主要只是可用的核心(cpu)数量。所以我想知道我们希望每个节点拥有多个执行器是否有任何优势或特定场景?
谢谢!
【问题讨论】:
-
我认为您的意思是针对给定的 Spark 作业?每个节点总是有多个执行器。
标签: memory apache-spark executor