【问题标题】:scale up/down slurm cluster扩大/缩小 slurm 集群
【发布时间】:2017-02-20 00:11:57
【问题描述】:

我最近才开始学习 slurm、heat 和一些问题。

我有一个使用 ansible 和 heat 创建的现有 slurm 集群。 Heat 创建集群,ansible 只是在所有节点上安装/配置所有必要的软件。

现在我想向现有集群添加新的计算节点。我尝试过“openstack update”命令,但它会重建所有现有节点。是否有适当的方法来添加新的计算节点而不重建现有的计算节点?

我还使用云高仪查看了基于 CPU 使用情况的自动缩放。这似乎工作但没有重新启动 slurm,如何让 slurm 集群中的现有节点知道添加了新的计算节点?是否可以在不重新启动的情况下修改 slurm.conf、slurmdbd.conf、/etc/hosts、knownhosts 等?

目标是当 cpu 使用率达到一定水平时,静默添加新的计算节点并将它们配置为现有集群的一部分。

谢谢,

【问题讨论】:

    标签: openstack slurm heat


    【解决方案1】:

    这是 slurm 的限制之一,修改配置文件或添加新节点肯定需要其余 slurm 守护程序或重新加载 slurmctld 守护程序来读取您所做的新配置更改。

    如果 slurm.conf 集中存储在 NFS 上,重新加载控制器守护进程是好的,但您可能会看到来自其他节点的一些警告

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-11-21
      • 2021-04-10
      • 2016-06-28
      • 1970-01-01
      • 2021-10-20
      • 1970-01-01
      • 2021-01-11
      相关资源
      最近更新 更多