【发布时间】:2019-05-26 00:32:00
【问题描述】:
我开始使用 Slurm,我假设我传递给 sbatch 的提交脚本在控制器上运行,并且标有 srun 的步骤将作为作业运行 步骤 在计算节点上。考虑下面的例子:
#!/bin/bash
#SBATCH --cpus-per-task 12
#SBATCH --gres=gpu:1
#SBATCH --job-name=hello
hostname
srun hostname
我希望首先看到我提交的机器的主机名,然后是为作业分配的计算节点的名称。相反,似乎整个脚本都在计算节点上运行。我在日志中看到了计算节点的主机名,然后它失败了,因为它在该节点上找不到 srun:
/var/spool/slurm/d/job00201/slurm_script: line 5: srun: command not found
我是否遗漏了一些明显的东西?
【问题讨论】:
-
提交脚本在计算节点上运行。
srun应该在计算节点中可用,如果不是,请与您的系统管理员联系。您的脚本的预期输出将是分配给该作业的计算主机名称的两倍。 -
有趣。我认为在计算节点上安装
slurmd包(在 Debian 中)就足够了。我如何获得那些额外的二进制文件?它们在单独的包装中吗? -
我想我需要 Debian 上的
slurm-client软件包 -
我不知道。这将是系统管理员的问题,而不是程序员的问题。
标签: slurm