【发布时间】:2020-06-14 17:04:48
【问题描述】:
我对 Spark 有点陌生,并试图理解几个术语。 (无法理解使用在线资源)
请先用以下条款验证我:
执行者:它的container or JVM process 将在worker node or data node 上运行。每个节点可以有多个 Executor。
核心:它是container or JVM process 中的一个线程,在worker node or data node 上运行。每个执行程序可以有多个内核或线程。
如果以上两个概念有误,请指正。
问题:
- 当我们提交 Spark 作业时,这意味着什么?我们在交
将我们的工作交给 Yarn 或资源经理,他们将分配
资源到集群中我的
application or job并执行? 它的理解是否正确..? -
在spark集群中用于提交作业的命令中,有一个选项 设置执行者的数量。
spark-submit --class <CLASS_NAME> --num-executors ? --executor-cores ? --executor-memory ? ....
那么这些执行器 + 核心的数量将设置每个节点?如果没有,我们如何设置每个节点的特定核心数?
【问题讨论】:
标签: java apache-spark cluster-computing hadoop-yarn