【问题标题】:Slurm sbatch job failSlurm 批量作业失败
【发布时间】:2021-07-25 12:30:08
【问题描述】:

我正在编写一个脚本 test.job 以使用 sbatch 提交作业。脚本如下。

#!/bin/bash

#SBATCH -J test

#SBATCH --time=00:01:00

#SBATCH -N 2

#SBATCH -n 2

#SBATCH -o logs/%j.sleep

#SBATCH -e logs/%j.sleep

echo test

然后我使用sbatch test.job 运行,作业失败并显示错误消息

JobId=8672 JobName=test
   UserId=xxx(2379) GroupId=users(100) MCS_label=N/A
   Priority=4294893104 Nice=0 Account=(null) QOS=(null)
   JobState=FAILED Reason=NonZeroExitCode Dependency=(null)
   Requeue=1 Restarts=0 BatchFlag=1 Reboot=0 ExitCode=1:0
   RunTime=00:00:00 TimeLimit=00:01:00 TimeMin=N/A
   SubmitTime=2021-05-03T03:04:21 EligibleTime=2021-05-03T03:04:21
   AccrueTime=2021-05-03T03:04:21
   StartTime=2021-05-03T03:04:22 EndTime=2021-05-03T03:04:22 Deadline=N/A
   SuspendTime=None SecsPreSuspend=0 LastSchedEval=2021-05-03T03:04:22
   NumNodes=2 NumCPUs=2 NumTasks=2 CPUs/Task=1 ReqB:S:C:T=0:0:*:*
   TRES=cpu=2,mem=4G,node=2,billing=2
   Socks/Node=* NtasksPerN:B:S:C=0:0:*:* CoreSpec=*
   MinCPUsNode=1 MinMemoryCPU=2G MinTmpDiskNode=0
   Features=(null) DelayBoot=00:00:00
   OverSubscribe=OK Contiguous=0 Licenses=(null) Network=(null)

知道我做错了什么吗?

【问题讨论】:

  • 我的猜测是logs目录不存在,或者你没有写权限。

标签: slurm sbatch


【解决方案1】:

通过实时运行更容易调试此类问题:

srun test.job

那么也许您会看到错误并能够修复。例如:日志文件夹权限或test.job 未设置为可执行文件

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-10-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-08-01
    • 1970-01-01
    • 2020-01-18
    • 2022-01-14
    相关资源
    最近更新 更多