【发布时间】:2018-07-04 08:51:04
【问题描述】:
我们有一个配置了公平调度程序的 hadoop 集群。我们曾经看到集群中没有多少作业要运行的场景,正在运行的作业试图占用尽可能多的内存和可用内核。
使用 Fair 调度程序,执行程序内存和内核对于 spark 乔布斯真的很重要吗?还是取决于公平调度器来决定给予多少?
【问题讨论】:
-
@Abhinav,根据您的回答,我几乎没有疑问。考虑我的集群是公平调度的,并且作业被编写为在分布式环境中正常运行 1)如果我的集群在该时间点运行作业时空闲,则由调度程序提供最小和最大资源(甚至提交/请求的作业用户资源更少)? . 2)在生产环境中,您真的看到为每个 Spark 作业调整最小和最大资源的需要吗?。
-
@WiilamR 1) 当您提交作业时,调度程序的工作是分配队列中的作业。另一方面,应用程序管理器负责为要执行的作业提供资源和构建容器,所以谈论最小/最大,这取决于你的作业的大小。但可以确认的是,如果这项工作必须使用 100% 的资源,没有人会阻止它。 2.) 在生产环境中。我们真的不需要调整资源分配,但我们选择不使用公平共享,我们使用容量调度程序,据我所知,它更好。所以第二个问题我无法回答。
标签: apache-spark hadoop cloudera hadoop2