【发布时间】:2016-05-27 11:17:29
【问题描述】:
在我们大学,我们有 2 个 HPC 集群专门用于运行量子化学计算。一个是旧的(自 2009 年以来),而较新的一个是几周前安装的。新旧集群系统中的每个计算刀片都有 16 个处理器。相同的程序安装在两个集群上并与 OpenMpi 1.6.5 一起使用。在旧集群上,每个刀片的处理器使用率稳定在 100%,如下所示:
现在,当在新集群的计算刀片上运行完全相同的计算时,CPU 使用率一直在 0 到 100% 之间波动,并且大部分时间看起来像这样:
旧集群上的计算,即使处理器是老一代且功率较低,完成的时间也比新集群上启动的时间短得多。 两个集群系统都运行 RedHat linux enterprise
这可能是什么问题?以及如何解决?
非常感谢您的任何帮助。
【问题讨论】:
-
请提供您的
mpirun命令和您的线程库。如果您使用 OpenMP 进行线程处理,OMP_NUM_THREADS在每个环境中的值是多少? -
我对此不是很有经验,但我知道在两个系统上编译 openmpi 时都没有定义线程,这意味着每个 CPU 一个线程。
标签: linux parallel-processing cpu