【发布时间】:2017-07-12 02:10:51
【问题描述】:
我们正在寻求为深度学习模型训练作业构建一个计算节点集群,其中一些在云端,另一些在本地,其中包含 NVIDIA GPU。我们认为使用 Mesos 和框架 Marathon (M&M) 将是我们调度集群的最佳选择。然而,(M&M)的文档似乎很模棱两可(或者至少对我来说,对不起,我是一名实习生)而且我遇到了很多关于 Zookeeper 和节点之间连接的问题。
另外,在教程和文档方面,Mesosphere 似乎更加重视 DC/OS,而且我想它也会更定期地进行修补,并且它的界面(GUI 和 CLI)看起来更加用户友好.
所以我想知道,如果放弃对 (M&M) 的探索并转向 DC/OS,我们是否会失去对集群的大量控制?在 M&M 中,我们是否有 DC/OS 的开源版无法提供的特权?比如监控机器、记录结果等。如果我问我的经理,我们可能还会获得企业版,所以这不是一个真正的问题,但是 DC/OS 是否应用了一个对高级用户来说并不是真正可取的抽象层?
【问题讨论】:
标签: cluster-computing mesos marathon mesosphere dcos