HPC 集群上并行作业的 CPU 使用率波动答案

【问题标题】：CPU usage fluctuation with a parallel job on HPC clustersHPC 集群上并行作业的 CPU 使用率波动
【发布时间】：2016-05-27 11:17:29
【问题描述】：

在我们大学，我们有 2 个 HPC 集群专门用于运行量子化学计算。一个是旧的（自 2009 年以来），而较新的一个是几周前安装的。新旧集群系统中的每个计算刀片都有 16 个处理器。相同的程序安装在两个集群上并与 OpenMpi 1.6.5 一起使用。在旧集群上，每个刀片的处理器使用率稳定在 100%，如下所示：

现在，当在新集群的计算刀片上运行完全相同的计算时，CPU 使用率一直在 0 到 100% 之间波动，并且大部分时间看起来像这样：

旧集群上的计算，即使处理器是老一代且功率较低，完成的时间也比新集群上启动的时间短得多。两个集群系统都运行 RedHat linux enterprise

这可能是什么问题？以及如何解决？

非常感谢您的任何帮助。

【问题讨论】：

请提供您的mpirun 命令和您的线程库。如果您使用 OpenMP 进行线程处理，OMP_NUM_THREADS 在每个环境中的值是多少？
我对此不是很有经验，但我知道在两个系统上编译 openmpi 时都没有定义线程，这意味着每个 CPU 一个线程。

标签： linux parallel-processing cpu

【解决方案1】：

我终于解决了这个问题。我想我会把它贴在这里来帮助任何可能遇到同样问题的人。在具有 CPU 频率问题的新集群上，计算直接在 /home 分区上运行，该分区通过 NFS（网络文件系统）连接到每个计算刀片。这极大地减慢了计算速度并导致了低 CPU 频率问题和高等待时间，这可能是由于大量资源用于在刀片和 /home 目录之间建立持续连接。当我修改脚本以使计算在每个刀片内的临时文件夹中运行时，问题就解决了。

【讨论】：