【问题标题】:sacct reports different results for the same jobsacct 报告同一作业的不同结果
【发布时间】:2020-07-29 16:53:29
【问题描述】:

我使用 -j 开关运行 sacct,以获取特定的作业 ID。根据其他命令行开关,同一作业会报告两个完全不同的结果。这里有三个例子。第二个显示的结果与其他两个不同。

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO  -S 2020-07-26T00:00:00 -E 2020-07-27T23:59:59  --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401                        JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401         CANCELLED+  UNLIMITED 2020-07-26T20:45:31 2020-07-27T08:36:10   11:50:39                              1          2
1401.batch    COMPLETED            2020-07-26T20:45:31 2020-07-27T08:36:17   11:50:46    103856K    619812K        1          2

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO  -S 2020-07-26T00:00:00 -E 2020-07-26T23:59:59  --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401
       JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401          NODE_FAIL  UNLIMITED 2020-06-15T09:38:38 2020-07-26T00:17:26 40-14:38:48                              1          2

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO    --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401
       JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401         CANCELLED+  UNLIMITED 2020-07-26T20:45:31 2020-07-27T08:36:10   11:50:39                              1          2
1401.batch    COMPLETED            2020-07-26T20:45:31 2020-07-27T08:36:17   11:50:46    103856K    619812K        1          2

为什么同一作业的开始/结束时间不同?一个报告运行时间为 11 小时,另一个报告运行时间为 40 天!

我们非常感谢您的任何见解!

【问题讨论】:

    标签: slurm sacct


    【解决方案1】:

    当两个作业具有相同的 JobId 时,通常会发生这种情况。 sacct documentation 说:

    如果重置 Slurm 作业 ID,某些作业编号可能会在记帐日志文件中出现多次,但指代不同的作业。此类作业可以通过数据记录中的“提交”时间戳来区分。

    尝试使用--duplicates 选项运行sacct 命令。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-06-23
      • 2018-11-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-11-19
      • 2020-09-09
      相关资源
      最近更新 更多