【问题标题】:From Spark perspective, are Yarn schedulers really different?从 Spark 的角度来看,Yarn 调度器真的不同吗?
【发布时间】:2019-02-20 13:47:44
【问题描述】:

Yarn 有两个著名的调度器,Fair SchedulerCapacity Scheduler。粗略地说,Capacity 将集群划分为预定义的队列,从而保证每个队列的资源,Fair scheduler 也将集群划分为队列,并在队列之间和队列内部平均共享资源。

现在,进一步研究每个调度器的细节,我们发现:

  1. 它们中的每一个都允许集群的不均匀分区(公平的权重和资源分数以及容量百分比)
  2. 在队列应用调度中每一个都支持FIFO和FAIR
  3. 都支持基于内存和DRF的资源使用计算

我猜他们俩都“成长”到了这种情况,每个人都添加了功能。但是到今天为止,它们之间还有什么区别吗?

附:我是从使用 Yarn 管理 Spark

的上下文中提出的问题

编辑:建议重复后,我将解释为什么,虽然相似,但它并没有完全回答问题,首先,答案不准确,例如,应用程序被分配给队列,而不是作业。最丰富的答案是一个比较表,它实际上取自quora answer,它是正确的,但可以追溯到2014-2016,它在获取开发进度的同时使其无关紧要。

【问题讨论】:

标签: apache-spark hadoop-yarn scheduling


【解决方案1】:

Nodel 标签是主要的标签。如果您想针对一组具有附加功能(GPU、软件许可证、高端硬件......)的机器运行特定作业,那么您现在需要使用容量调度程序。 Fair Scheduler 稍后可能会收到此消息,但 AFAIK 仍在进行中。

相关的 JIRA 是:

就历史而言,Capacity Scheduler 起源于 Yahoo!然后由 HortonWorks 维护,当时 Yahoo!分拆了 HortonWorks。 Cloudera 投资了 Fair Scheduler。我不确定 HortonWorks 和 Cloudera 合并后的未来。

【讨论】:

  • 我已经使用公平调度器针对特定节点安排了任务。这花了一些时间,因为实现被破坏了,但在自定义应用程序中它可以工作,你可能可以修补 Spark 来做同样的事情。
猜你喜欢
  • 2019-04-15
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-11-01
  • 1970-01-01
  • 2014-08-26
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多