【问题标题】:sge can only run one task in one nodesge 只能在一个节点上运行一项任务
【发布时间】:2023-04-11 01:33:02
【问题描述】:

我为源代码在一个四节点集群中构建了 SGE。 Centos7中的操作系统。而当我在集群中提交一些简单的任务时,我发现只有一个任务在一个节点上运行。有什么问题?这是我的任务代码:

sleep 60
echo "done"

这是我提交任务的 cmd:

DIR=`pwd`
option=""
for((i=0;i<5;i++));do
  qsub -q multislots $option -V -cwd -o stdout -e stderr -S /bin/bash $DIR/test.sh
  sleep 1
done

运行qstat -f,显示:enter image description here

【问题讨论】:

  • 在您的屏幕截图中,我看到 3 个作业在 3 个节点上运行(node332 上的作业 505、node335 上的作业 506 和 node336 上的作业 504,如果我没记错的话。)是什么让你说只有一个任务在单个节点上运行?
  • 我的意思是node335有16个slot,job506只用了一个,队列中有两个job在等待,为什么剩下的两个job没有运行?
  • 当我查看文件 default/spool/qmaster/messages 时,我看到错误:“作业 519.1 在主机 node332 上失败,假设在作业之前因为:找不到未使用的 add_grp_id”

标签: bash shell cluster-computing centos7 sungridengine


【解决方案1】:

鉴于有关作业失败的错误消息,因为:“找不到未使用的 add_grp_id”。您应该检查 gid_range 在 sge 配置中设置的内容(全局以及每个主机是否有一个)。它应该是一系列其他未使用的组 ID。至少与您希望节点上的作业一样多的gid。

如果不是这样,请尝试在其中一个排队的作业上运行 qalter -w v 和 qalter -w p 以查看它们未启动的原因。

【讨论】:

    猜你喜欢
    • 2019-05-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-05-08
    • 2018-09-05
    • 2011-09-21
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多