【发布时间】:2014-11-30 17:48:36
【问题描述】:
我有几千个作业要在具有 16 个节点的 SLURM 集群上运行。这些作业应仅在大小为 7 的可用节点的子集上运行。一些任务是并行的,因此使用单个节点的所有 CPU 能力,而其他任务是单线程的。因此,多个作业应该在单个节点上同时运行。任何任务都不应在多个节点上产生。
目前我提交的每个工作如下:
sbatch --nodelist=myCluster[10-16] myScript.sh
但是,这个参数使 slurm 等待提交的作业终止,因此有 3 个节点完全未使用,并且根据任务(多线程或单线程),当前活动节点也可能处于低负载状态CPU 能力。
sbatch 强制 slurm 在指定节点上同时运行多个作业的最佳参数是什么?
【问题讨论】:
标签: cluster-computing batch-processing slurm sbatch