【问题标题】:How to run a longer job in SLURM if the default time limit of partition is not sufficient?如果分区的默认时间限制不够,如何在 SLURM 中运行更长的作业?
【发布时间】:2021-07-17 16:20:46
【问题描述】:

我已经在 linux-cluster 中提交了我的作业(使用 SLURM 来安排作业),但是每个分区的时间限制只有 24 小时(实际上这个限制是由管理员设置的),看来我的代码需要运行一个多星期(根据我的猜测)。我是 SLURM 脚本的新手,对以下内容之间的相互作用知之甚少:

#SBATCH --nodes=
#SBATCH --ntasks-per-node=
#SBATCH --ntasks=
#SBATCH --ntasks-per-core=

我正在寻找解决办法,以避免在提交工作和完成我的工作时受到时间限制。

欢迎提出建议。

【问题讨论】:

    标签: mpi hpc slurm


    【解决方案1】:

    时间限制由管理员设置,并在 /etc/slurm/slurm.conf 的 slurm.conf 中定义。应该有定义限制的分区。

    恐怕你无法绕过这个限制。

    所以你唯一能做的就是:

    1. 运行 24 小时,在 24 小时之前保存所有状态。 (这可能很困难)
    2. 要求管理员增加超时时间
    3. 使用更多数量的节点、核心、线程?

    对于 1,您需要修改程序并保存大多数程序应该提供的状态,如果它们应该长时间运行?

    您似乎来自尼泊尔,如果您碰巧在加德满都大学 HPC 运行它,您可以请求管理部门,他们应该在这里为您提供帮助。

    关于你的第二个问题:

    #SBATCH --nodes=
    #SBATCH --ntasks-per-node=
    #SBATCH --ntasks=
    #SBATCH --ntasks-per-core=
    

    nodes 表示物理节点的数量。

    对于 ntask 相关的事情,我建议你看这个链接:What does the --ntasks or -n tasks does in SLURM?

    【讨论】:

      猜你喜欢
      • 2020-05-28
      • 2015-04-09
      • 2016-03-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-03
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多