【发布时间】:2023-04-11 01:33:02
【问题描述】:
我为源代码在一个四节点集群中构建了 SGE。 Centos7中的操作系统。而当我在集群中提交一些简单的任务时,我发现只有一个任务在一个节点上运行。有什么问题?这是我的任务代码:
sleep 60
echo "done"
这是我提交任务的 cmd:
DIR=`pwd`
option=""
for((i=0;i<5;i++));do
qsub -q multislots $option -V -cwd -o stdout -e stderr -S /bin/bash $DIR/test.sh
sleep 1
done
运行qstat -f,显示:enter image description here
【问题讨论】:
-
在您的屏幕截图中,我看到 3 个作业在 3 个节点上运行(node332 上的作业 505、node335 上的作业 506 和 node336 上的作业 504,如果我没记错的话。)是什么让你说只有一个任务在单个节点上运行?
-
我的意思是node335有16个slot,job506只用了一个,队列中有两个job在等待,为什么剩下的两个job没有运行?
-
当我查看文件 default/spool/qmaster/messages 时,我看到错误:“作业 519.1 在主机 node332 上失败,假设在作业之前因为:找不到未使用的 add_grp_id”
标签: bash shell cluster-computing centos7 sungridengine