【问题标题】:job status in SLURMSLURM 中的工作状态
【发布时间】:2013-10-20 01:45:10
【问题描述】:

我想查看我最近在集群上运行的所有作业(已完成、失败和正在运行)。我还希望看到每个工作有 1 个条目。执行sacct 将使用State: FAILED, FAILED, COMPLETED 重新运行每个作业3 行。这是什么意思?如何查看我想查看的实际信息?

我也不明白JobNametrue 是什么意思。

这是输出的副本:

   JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
 ------------ ---------- ---------- ---------- ---------- ---------- -------- 
 2160852               R   interact cluster_u+          2  COMPLETED      0:0 
 2160864               R   interact cluster_u+          2  COMPLETED      0:0 
 2161424               R   interact cluster_u+          2  COMPLETED      0:0 
 2161430               R   interact cluster_u+          0 CANCELLED+      0:0 
 2161431               R   interact cluster_u+          2  COMPLETED      0:0 
 2161668               R   interact cluster_u+          2  COMPLETED      0:9 
 2161682          myjob+    general cluster_u+          2     FAILED      1:0 
 2161682.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161682.0          true            cluster_u+          1  COMPLETED      0:0 
 2161683          myjob+    general cluster_u+          2     FAILED      1:0 
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161683.0          true            cluster_u+          1  COMPLETED      0:0 

提交脚本(注意 中的值由 R 中的包 BatchJobs 处理):

 #!/bin/bash
 #SBATCH -J <%= job.name %>            # name of the job
 #SBATCH -p general
 #SBATCH --mem <%= resources$memory %>    # Memory requirements in Kbytes
 #SBATCH -o ./logs/<%= job.name %>_log.txt    # Memory requirements in Kbytes


 eval "R --vanilla --slave < <%= rscript %>"

【问题讨论】:

    标签: linux batch-processing hpc slurm


    【解决方案1】:

    sacct 将在每个作业中打印一行,然后在该作业中每个作业步骤打印一行。

     2161683          myjob+    general cluster_u+          2     FAILED      1:0  <- the job
     2161683.bat+      batch            cluster_u+          1     FAILED      1:0  <- the batch script
     2161683.0          true            cluster_u+          1  COMPLETED      0:0  <- the R step
    

    作业的状态为失败,因为脚本本身的状态为失败。您的脚本中有一个作业步骤,并且它正确终止。

    我经常求助sacct |grep -v "^[0-9]*\."来获取工作信息。

    【讨论】:

    • 另外,什么是“工作步骤”?
    • 从广义上讲,如果您的作业由多个命令组成,那么每个命令就是一个作业步骤。
    • 你为什么使用 eval 而不是仅仅运行命令行?如果这真的是你脚本的最后一行,我很困惑为什么你的工作失败而你的工作步骤却没有。
    • 是的,就是整个提交脚本; eval 是不久前的遗物,我真的应该改变
    • 旁注:您请求 2 个 cpu.. 您的 R 脚本是多线程的吗?
    猜你喜欢
    • 2017-06-21
    • 2015-06-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-13
    • 1970-01-01
    • 2010-12-17
    • 1970-01-01
    相关资源
    最近更新 更多