【问题标题】:CPU usage fluctuation with a parallel job on HPC clustersHPC 集群上并行作业的 CPU 使用率波动
【发布时间】:2016-05-27 11:17:29
【问题描述】:

在我们大学,我们有 2 个 HPC 集群专门用于运行量子化学计算。一个是旧的(自 2009 年以来),而较新的一个是几周前安装的。新旧集群系统中的每个计算刀片都有 16 个处理器。相同的程序安装在两个集群上并与 OpenMpi 1.6.5 一起使用。在旧集群上,每个刀片的处理器使用率稳定在 100%,如下所示:

现在,当在新集群的计算刀片上运行完全相同的计算时,CPU 使用率一直在 0 到 100% 之间波动,并且大部分时间看起来像这样:

旧集群上的计算,即使处理器是老一代且功率较低,完成的时间也比新集群上启动的时间短得多。 两个集群系统都运行 RedHat linux enterprise

这可能是什么问题?以及如何解决?

非常感谢您的任何帮助。

【问题讨论】:

  • 请提供您的mpirun 命令和您的线程库。如果您使用 OpenMP 进行线程处理,OMP_NUM_THREADS 在每个环境中的值是多少?
  • 我对此不是很有经验,但我知道在两个系统上编译 openmpi 时都没有定义线程,这意味着每个 CPU 一个线程。

标签: linux parallel-processing cpu


【解决方案1】:

我终于解决了这个问题。我想我会把它贴在这里来帮助任何可能遇到同样问题的人。 在具有 CPU 频率问题的新集群上,计算直接在 /home 分区上运行,该分区通过 NFS(网络文件系统)连接到每个计算刀片。这极大地减慢了计算速度并导致了低 CPU 频率问题和高等待时间,这可能是由于大量资源用于在刀片和 /home 目录之间建立持续连接。 当我修改脚本以使计算在每个刀片内的临时文件夹中运行时,问题就解决了。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-10-15
    • 1970-01-01
    • 2020-06-27
    • 2016-09-10
    • 1970-01-01
    • 2012-12-29
    相关资源
    最近更新 更多