【发布时间】:2017-07-28 11:40:13
【问题描述】:
有没有办法找出工作被 slurm 取消的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。如果达到资源限制,我也想知道是哪一个。
【问题讨论】:
标签: slurm
有没有办法找出工作被 slurm 取消的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。如果达到资源限制,我也想知道是哪一个。
【问题讨论】:
标签: slurm
slurm 日志文件明确包含该信息。它也被写入作业的输出文件,如下所示:
JOB <jobid> CANCELLED AT <time> DUE TO TIME LIMIT
或
Job <jobid> exceeded <mem> memory limit, being killed:
或
JOB <jobid> CANCELLED AT <time> DUE TO NODE FAILURE
等等
【讨论】: