Slurm 设置:连接 slurm 流套接字时出错
Slurm setup: Error connecting slurm stream socket
我正在尝试使用 slurm 设置一个新集群。我已经设置了一个客户端和一个控制机器。 (我是新手......)
- 当我从控制机器输入 sinfo -vvv 时,它告诉
" sinfo: debug2: slurm_connect 失败:连接被拒绝
sinfo:debug2:在 192.168.155.142:6817 连接 slurm 流套接字时出错:连接被拒绝“
我的 slurm 配置为使用 6817 端口(此处提供完整配置 https://pastebin.com/X4yDe99z
SlurmctldPort=6817
端口已打开(我也尝试禁用 ufw)
6817 (v6) ALLOW Anywhere (v6)
- 当我尝试 slurmctld -Dvvv 时显示此错误
slurmctld: error: this host (xxxx/xxx) not a valid controller (gaia or (null))
我的 /etc/hosts 文件是
127.0.0.1 localhost
192.168.155.142 gaia
slurm.conf
中参数 ControlMachine
的值,您启动 slurmctld
的机器,必须是 hostname -s
在该机器上的准确输出守护进程启动。
您的机器上 hostname -s
似乎没有输出 gaia
。将 gaia
替换为隐藏在 xxxx/xxx
.
后面的内容
我正在尝试使用 slurm 设置一个新集群。我已经设置了一个客户端和一个控制机器。 (我是新手......)
- 当我从控制机器输入 sinfo -vvv 时,它告诉
" sinfo: debug2: slurm_connect 失败:连接被拒绝 sinfo:debug2:在 192.168.155.142:6817 连接 slurm 流套接字时出错:连接被拒绝“
我的 slurm 配置为使用 6817 端口(此处提供完整配置 https://pastebin.com/X4yDe99z
SlurmctldPort=6817
端口已打开(我也尝试禁用 ufw)
6817 (v6) ALLOW Anywhere (v6)
- 当我尝试 slurmctld -Dvvv 时显示此错误
slurmctld: error: this host (xxxx/xxx) not a valid controller (gaia or (null))
我的 /etc/hosts 文件是
127.0.0.1 localhost
192.168.155.142 gaia
slurm.conf
中参数 ControlMachine
的值,您启动 slurmctld
的机器,必须是 hostname -s
在该机器上的准确输出守护进程启动。
您的机器上 hostname -s
似乎没有输出 gaia
。将 gaia
替换为隐藏在 xxxx/xxx
.