【问题标题】:Slurm setup: Error connecting slurm stream socketSlurm 设置:连接 slurm 流套接字时出错
【发布时间】:2019-01-29 20:21:30
【问题描述】:

我正在尝试使用 slurm 设置一个新集群。我已经设置了一个客户端和一个控制机器。 (我是新手.....)

  1. 当我从控制机器输入 sinfo -vvv 时,它会告诉你

" sinfo: debug2: slurm_connect failed: Connection denied sinfo:debug2:在 192.168.155.142:6817 连接 slurm 流套接字时出错:连接被拒绝“

我的 slurm 配置为使用 6817 端口(此处提供完整配置https://pastebin.com/X4yDe99z

SlurmctldPort=6817

端口已打开(我也尝试禁用 ufw)

6817 (v6) ALLOW Anywhere (v6)

  1. 当我尝试 slurmctld -Dvvv 时显示此错误

slurmctld: error: this host (xxxx/xxx) not a valid controller (gaia or (null))

我的 /etc/hosts 文件是 127.0.0.1 localhost 192.168.155.142 gaia

【问题讨论】:

    标签: slurm


    【解决方案1】:

    slurm.conf 中的参数ControlMachine 的值(您在其上启动slurmctld 的机器)必须是该机器上hostname -s 的精确输出,守护程序才能启动。

    您机器上的hostname -s 似乎没有输出gaia。将gaia 替换为隐藏在xxxx/xxx 后面的内容。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-12-01
      • 1970-01-01
      • 2015-06-06
      • 2017-03-17
      • 1970-01-01
      • 2019-01-06
      • 1970-01-01
      • 2018-03-14
      相关资源
      最近更新 更多