运行 MPI 程序在两个集群节点上时出现的问题
Issues when running MPI program on two cluster nodes
我有一个非常简单的 MPI 程序:
int my_rank;
int my_new_rank;
int size;
MPI_Init(&argc, &argv);
MPI_Comm_rank(MPI_COMM_WORLD, &my_rank);
MPI_Comm_size(MPI_COMM_WORLD, &size);
if (my_rank == 0 || my_rank == 18 || my_rank == 36){
char hostbuffer[256];
gethostname(hostbuffer, sizeof(hostbuffer));
printf("Hostname: %s\n", hostbuffer);
}
MPI_Finalize();
我运行将它安装在一个有两个节点的集群上。我有一个 make 文件,并使用 mpicc
命令生成 cannon.run
可执行文件。我使用以下命令 运行 它:
time mpirun --mca btl ^openib -n 64 -hostfile ../second_machinefile ./cannon.run
在second_machinefile 我有这两个节点的名称。奇怪的问题是,当我从一个节点 运行 这个命令时,它正常执行,但是当我 运行 来自另一个节点的命令时,我得到错误:
Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
*** Process received signal ***
Signal: Segmentation fault (11)
Signal code: Address not mapped (1)
Failing at address: 0x30
在尝试使用 GDB 调整后,我得到了这个回溯:
#0 0x00007ffff646e936 in ?? ()
from /usr/lib/x86_64-linux-gnu/pmix/lib/pmix/mca_gds_ds21.so
#1 0x00007ffff6449733 in pmix_common_dstor_init ()
from /lib/x86_64-linux-gnu/libmca_common_dstore.so.1
#2 0x00007ffff646e5b4 in ?? ()
from /usr/lib/x86_64-linux-gnu/pmix/lib/pmix/mca_gds_ds21.so
#3 0x00007ffff659e46e in pmix_gds_base_select ()
from /lib/x86_64-linux-gnu/libpmix.so.2
#4 0x00007ffff655688d in pmix_rte_init ()
from /lib/x86_64-linux-gnu/libpmix.so.2
#5 0x00007ffff6512d7c in PMIx_Init () from /lib/x86_64-linux-gnu/libpmix.so.2
#6 0x00007ffff660afe4 in ext2x_client_init ()
from /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi3/mca_pmix_ext2x.so
#7 0x00007ffff72e1656 in ?? ()
from /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi3/mca_ess_pmi.so
#8 0x00007ffff7a9d11a in orte_init ()
from /lib/x86_64-linux-gnu/libopen-rte.so.40
#9 0x00007ffff7d6de62 in ompi_mpi_init ()
from /lib/x86_64-linux-gnu/libmpi.so.40
#10 0x00007ffff7d9c17e in PMPI_Init () from /lib/x86_64-linux-gnu/libmpi.so.40
#11 0x00005555555551d6 in main ()
老实说我不太明白。
我的主要困惑是程序从 machine_1 正确执行,它连接到 machine_2 没有错误,并且两台机器上的进程都已初始化。但是当我尝试从 machine_2 执行相同的命令时,它无法连接 machine_1。如果我 运行 它也只在 machine_2 上,当减少进程数以使其适合一台机器时,该程序也 运行 正确。
我做错了什么吗?或者我可以尝试更好地理解问题的原因吗?
这确实是 Open PMIx 中的一个错误,已在 https://github.com/openpmix/openpmix/pull/1580
中解决
同时,解决方法是将 gds/ds21
组件列入黑名单:
- 一个选择是
export PMIX_MCA_gds=^ds21
在调用 mpirun
之前
- 另一种选择是添加以下行
gds = ^ds21
到位于 <pmix_prefix>/etc/pmix-mca-params.conf
的 PMIx 配置文件
我有一个非常简单的 MPI 程序:
int my_rank;
int my_new_rank;
int size;
MPI_Init(&argc, &argv);
MPI_Comm_rank(MPI_COMM_WORLD, &my_rank);
MPI_Comm_size(MPI_COMM_WORLD, &size);
if (my_rank == 0 || my_rank == 18 || my_rank == 36){
char hostbuffer[256];
gethostname(hostbuffer, sizeof(hostbuffer));
printf("Hostname: %s\n", hostbuffer);
}
MPI_Finalize();
我运行将它安装在一个有两个节点的集群上。我有一个 make 文件,并使用 mpicc
命令生成 cannon.run
可执行文件。我使用以下命令 运行 它:
time mpirun --mca btl ^openib -n 64 -hostfile ../second_machinefile ./cannon.run
在second_machinefile 我有这两个节点的名称。奇怪的问题是,当我从一个节点 运行 这个命令时,它正常执行,但是当我 运行 来自另一个节点的命令时,我得到错误:
Primary job terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
*** Process received signal ***
Signal: Segmentation fault (11)
Signal code: Address not mapped (1)
Failing at address: 0x30
在尝试使用 GDB 调整后,我得到了这个回溯:
#0 0x00007ffff646e936 in ?? ()
from /usr/lib/x86_64-linux-gnu/pmix/lib/pmix/mca_gds_ds21.so
#1 0x00007ffff6449733 in pmix_common_dstor_init ()
from /lib/x86_64-linux-gnu/libmca_common_dstore.so.1
#2 0x00007ffff646e5b4 in ?? ()
from /usr/lib/x86_64-linux-gnu/pmix/lib/pmix/mca_gds_ds21.so
#3 0x00007ffff659e46e in pmix_gds_base_select ()
from /lib/x86_64-linux-gnu/libpmix.so.2
#4 0x00007ffff655688d in pmix_rte_init ()
from /lib/x86_64-linux-gnu/libpmix.so.2
#5 0x00007ffff6512d7c in PMIx_Init () from /lib/x86_64-linux-gnu/libpmix.so.2
#6 0x00007ffff660afe4 in ext2x_client_init ()
from /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi3/mca_pmix_ext2x.so
#7 0x00007ffff72e1656 in ?? ()
from /usr/lib/x86_64-linux-gnu/openmpi/lib/openmpi3/mca_ess_pmi.so
#8 0x00007ffff7a9d11a in orte_init ()
from /lib/x86_64-linux-gnu/libopen-rte.so.40
#9 0x00007ffff7d6de62 in ompi_mpi_init ()
from /lib/x86_64-linux-gnu/libmpi.so.40
#10 0x00007ffff7d9c17e in PMPI_Init () from /lib/x86_64-linux-gnu/libmpi.so.40
#11 0x00005555555551d6 in main ()
老实说我不太明白。
我的主要困惑是程序从 machine_1 正确执行,它连接到 machine_2 没有错误,并且两台机器上的进程都已初始化。但是当我尝试从 machine_2 执行相同的命令时,它无法连接 machine_1。如果我 运行 它也只在 machine_2 上,当减少进程数以使其适合一台机器时,该程序也 运行 正确。
我做错了什么吗?或者我可以尝试更好地理解问题的原因吗?
这确实是 Open PMIx 中的一个错误,已在 https://github.com/openpmix/openpmix/pull/1580
中解决同时,解决方法是将 gds/ds21
组件列入黑名单:
- 一个选择是
export PMIX_MCA_gds=^ds21
在调用 mpirun
- 另一种选择是添加以下行
gds = ^ds21
到位于 <pmix_prefix>/etc/pmix-mca-params.conf