【问题标题】:Torque does not limit the number of nodes mpiexec usesTorque 不限制 mpiexec 使用的节点数量
【发布时间】:2015-02-12 01:17:44
【问题描述】:

所以我同时运行以下这些 pbs 文件:

qsub /mnt/文件夹/prueba1_1 qsub /mnt/文件夹/prueba01

这是文件

prueba1_1

#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile  ./cpi2>>salida1_1.o

prueba01

#!/bin/bash
#PBS -N pruebaF
#PBS -V
#PBS -l nodes=1:ppn=1
#PBS -q batch
#PBS -j eo
cd /mnt/folder
mpiexec -f machinefile  ./cpi2>>salida01.o

文件 machinefile 包含 2 个节点 slave02 和 slave03,每个节点都有 1 个处理器

虽然我指定每个 pbs 文件每个作业应仅使用 1 个节点和 1 个处理器(#PBS -l nodes=1:ppn=1),但输出文件似乎表明每个作业同时使用两个节点时间。我想知道为什么这些 pbsfile 应该只使用一个节点和 1 个处理器,对我来说应该是 prueba1_1 应该使用 slave02 和 1 个处理器,而 prueba01 也应该使用 slave02,但要使用另一个处理器。

输出文件在这里

salida1_1.o

Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.937282

salida01.o

Process 0 of 2 is on slave02
Process 1 of 2 is on slave03
pi is approximately 3.1415926535900915, Error is 0.0000000000002984
wall clock time = 14.741892

【问题讨论】:

    标签: parallel-processing torque mpiexec


    【解决方案1】:

    我会将 machinefile 更改为 $PBS_NODEFILE。当 Torque/PBS 将节点分配给您的作业时,它会创建一个包含这些节点列表的文件,并在变量 PBS_NODEFILE 中设置该文件的路径。我猜 machinefile 是为测试而创建的,因为它不是由 Torque 创建或更新的,这就是为什么你的工作总是以相同的方式运行的原因。

    【讨论】:

      猜你喜欢
      • 2015-10-16
      • 2016-12-28
      • 2020-06-08
      • 2015-05-06
      • 2011-05-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多