【问题标题】:Access reason why slurm stopped a job访问 slurm 停止工作的原因
【发布时间】:2017-07-28 11:40:13
【问题描述】:

有没有办法找出工作被 slurm 取消的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。如果达到资源限制,我也想知道是哪一个。

【问题讨论】:

    标签: slurm


    【解决方案1】:

    slurm 日志文件明确包含该信息。它也被写入作业的输出文件,如下所示:

    JOB <jobid> CANCELLED AT <time> DUE TO TIME LIMIT
    

    Job <jobid> exceeded <mem> memory limit, being killed:
    

    JOB <jobid> CANCELLED AT <time> DUE TO NODE FAILURE
    

    等等

    【讨论】:

      猜你喜欢
      • 2021-12-07
      • 2023-04-03
      • 1970-01-01
      • 1970-01-01
      • 2017-05-19
      • 1970-01-01
      • 2023-03-29
      • 2021-08-31
      • 1970-01-01
      相关资源
      最近更新 更多