启动 MPI 集群失败

launch MPI cluster failed

我尝试启动我的 MPI 集群。我已经在每个节点上使用 sudo ufw disable 禁用了防火墙。我已经设置了无密码连接,以便 pc0 可以通过 ssh 无密码连接 pc1 和 pc2。

ub0为主节点host,ub1和ub2为从节点

错误是:

pc0@ub0:~/Downloads/mpich-3.0.4/examples$ mpirun -n 10 -f servers ./cpi
[proxy:0:1@ub1] HYDU_sock_connect (./utils/sock/sock.c:140): unable to get host address for ub0 (1)
[proxy:0:1@ub1] main (./pm/pmiserv/pmip.c:189): unable to connect to server ub0 at port 36272 (check for firewalls!)
[proxy:0:2@ub2] HYDU_sock_connect (./utils/sock/sock.c:140): unable to get host address for ub0 (1)
[proxy:0:2@ub2] main (./pm/pmiserv/pmip.c:189): unable to connect to server ub0 at port 36272 (check for firewalls!)

服务器文件是:

ub0:2
pc1@ub1:2
pc2@ub2:2

我的 OS 是 Ubuntu 14.04 i386。 MPI 是 MPICH

现在,我不知道如何修复它。感谢您的帮助!

我没有在其他节点上将 IP 和主机名添加到 /etc/hosts

因此编辑 /etc/hosts,并像这样添加 ip 和主机名:

192.168.0.1 node1
192.168.0.2 node2
192.168.0.3 node3

之后将编译好的文件复制到其他节点对应的目录下。然后就可以正常工作了。