如果分区的默认时间限制不够，如何在 SLURM 中运行更长的作业？答案

【问题标题】：How to run a longer job in SLURM if the default time limit of partition is not sufficient?如果分区的默认时间限制不够，如何在 SLURM 中运行更长的作业？
【发布时间】：2021-07-17 16:20:46
【问题描述】：

我已经在 linux-cluster 中提交了我的作业（使用 SLURM 来安排作业），但是每个分区的时间限制只有 24 小时（实际上这个限制是由管理员设置的），看来我的代码需要运行一个多星期（根据我的猜测）。我是 SLURM 脚本的新手，对以下内容之间的相互作用知之甚少：

#SBATCH --nodes=
#SBATCH --ntasks-per-node=
#SBATCH --ntasks=
#SBATCH --ntasks-per-core=

我正在寻找解决办法，以避免在提交工作和完成我的工作时受到时间限制。

欢迎提出建议。

【问题讨论】：

标签： mpi hpc slurm

【解决方案1】：

时间限制由管理员设置，并在 /etc/slurm/slurm.conf 的 slurm.conf 中定义。应该有定义限制的分区。

恐怕你无法绕过这个限制。

所以你唯一能做的就是：

运行 24 小时，在 24 小时之前保存所有状态。（这可能很困难）
要求管理员增加超时时间
使用更多数量的节点、核心、线程？

对于 1，您需要修改程序并保存大多数程序应该提供的状态，如果它们应该长时间运行？

您似乎来自尼泊尔，如果您碰巧在加德满都大学 HPC 运行它，您可以请求管理部门，他们应该在这里为您提供帮助。

关于你的第二个问题：

#SBATCH --nodes=
#SBATCH --ntasks-per-node=
#SBATCH --ntasks=
#SBATCH --ntasks-per-core=

nodes 表示物理节点的数量。

对于 ntask 相关的事情，我建议你看这个链接：What does the --ntasks or -n tasks does in SLURM?

【讨论】：