【问题标题】:Does SLURM submission scripts run on the compute node or the controller machine?SLURM 提交脚本是在计算节点还是控制器机器上运行?
【发布时间】:2019-05-26 00:32:00
【问题描述】:

我开始使用 Slurm,我假设我传递给 sbatch 的提交脚本在控制器上运行,并且标有 srun 的步骤将作为作业运行 步骤 在计算节点上。考虑下面的例子:

#!/bin/bash
#SBATCH --cpus-per-task 12
#SBATCH --gres=gpu:1
#SBATCH --job-name=hello

hostname
srun hostname

我希望首先看到我提交的机器的主机名,然后是为作业分配的计算节点的名称。相反,似乎整个脚本都在计算节点上运行。我在日志中看到了计算节点的主机名,然后它失败了,因为它在该节点上找不到 srun

/var/spool/slurm/d/job00201/slurm_script: line 5: srun: command not found

我是否遗漏了一些明显的东西?

【问题讨论】:

  • 提交脚本在计算节点上运行。 srun 应该在计算节点中可用,如果不是,请与您的系统管理员联系。您的脚本的预期输出将是分配给该作业的计算主机名称的两倍。
  • 有趣。我认为在计算节点上安装 slurmd 包(在 Debian 中)就足够了。我如何获得那些额外的二进制文件?它们在单独的包装中吗?
  • 我想我需要 Debian 上的 slurm-client 软件包
  • 我不知道。这将是系统管理员的问题,而不是程序员的问题。

标签: slurm


【解决方案1】:

原来在计算节点上安装slurmd 是不够的。安装slurm-client 包会拉取所有s 二进制文件

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-08-19
    • 2022-11-10
    • 2023-03-16
    • 1970-01-01
    • 2018-09-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多