【发布时间】:2015-02-25 10:19:00
【问题描述】:
我想设置一个SLURM cluster。我至少需要多少台机器?我可以从两台机器开始(一台是客户端,一台是客户端和服务器)?
【问题讨论】:
我想设置一个SLURM cluster。我至少需要多少台机器?我可以从两台机器开始(一台是客户端,一台是客户端和服务器)?
【问题讨论】:
正如@Carles 所写,如果需要,您只能使用一台计算机,同时运行控制器 (slurmctld) 和工作程序 (slurmd) 守护进程。
如果您想测试一些配置并观察 Slurm 的行为,您甚至可以使用 -N <hostname> 选项在单台机器上运行多个工作守护进程来模拟更大的集群。
如果你想真正完成一些计算,你可以在同一个节点上运行控制器和工作守护进程。如果您希望系统仍然响应,只需配置 Slurm 让它相信系统有 1 个内核和 2GB 的 RAM,而不是它实际上必须为操作系统和 Slurm 守护程序留出一些空间。
附带说明,您在问题中链接的页面对应于一个非常旧版本的 Slurm。较新版本的文档托管在 Schedmd's website。
【讨论】:
SlurmdParameters=config_overrides(FastSchedule=2 在以前的版本中)。但是现在你可以明确地告诉而不是欺骗 Slurm,CoreSpecCount 和 MemSpecLimit 指定要为操作系统保留的资源。
controller and the worker daemon on the same node,我们应该使用--enable-multiple-slurmd 来做buld 源代码吗?
您可以开始只使用一台机器,但 2 台机器将是最标准的配置,一台机器作为控制器,另一台作为“工作”节点。使用此模型,您可以将尽可能多的机器添加到集群中作为“工作”节点。这样服务器就不会执行作业,也不会受到作业干扰。
【讨论】: