如何在错误终止前调试 MPI 程序?

How to debug MPI program before bad termination?

我目前正在使用 MPI+pthread 范式开发一个用 C++ 编写的程序。

我向我的程序添加了一些功能,但是我收到了来自一个 MPI 进程的错误终止消息,如下所示:

===================================================================================
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
=   PID 37805 RUNNING AT node165
=   EXIT CODE: 11
=   CLEANING UP REMAINING PROCESSES
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES
===================================================================================
[proxy:0:0@node162] HYD_pmcd_pmip_control_cmd_cb (pm/pmiserv/pmip_cb.c:887): assert (!closed) failed
[proxy:0:0@node162] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[proxy:0:2@node166] HYD_pmcd_pmip_control_cmd_cb (pm/pmiserv/pmip_cb.c:887): assert (!closed) failed
[proxy:0:2@node166] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[proxy:0:2@node166] main (pm/pmiserv/pmip.c:202): demux engine error waiting for event
srun: error: node162: task 0: Exited with exit code 7
[proxy:0:0@node162] main (pm/pmiserv/pmip.c:202): demux engine error waiting for event
srun: error: node166: task 2: Exited with exit code 7
[mpiexec@node162] HYDT_bscu_wait_for_completion (tools/bootstrap/utils/bscu_wait.c:76): one of the processes terminated badly; aborting
[mpiexec@node162] HYDT_bsci_wait_for_completion (tools/bootstrap/src/bsci_wait.c:23): launcher returned error waiting for completion
[mpiexec@node162] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:218): launcher returned error waiting for completion
[mpiexec@node162] main (ui/mpich/mpiexec.c:340): process manager error waiting for completion

我的问题是我不知道为什么会收到这种消息,也不知道如何更正它。

我只使用 MPI 的一些基本函数,并确保没有使用 MPI 调用的线程(只有我的 "master process" 允许调用此类函数)。

我还检查了一个进程没有向自己发送消息,并且在发送消息之前进程目标存在。

我的问题很简单:如何知道问题出在哪里然后调试我的应用程序?

非常感谢。

您的一个进程出现分段错误。这意味着读取或写入不允许的内存区域。

这就是原因,MPI 函数通常很难在第一次就正确使用 - 例如,MPI 发送和接收函数的大小或位置可能不正确。

最好的解决方案是启动并行调试器,以便您可以观察所有进程。看来您使用的是合适的 HPC 系统,因此系统上可能安装了一个系统 -- ddt 或 totalview 是最受欢迎的。

看看How to debug an MPI program

我在用 C++ 编写和使用 MPI 时遇到这个问题的经验是,当我没有设置 MPI_Finalze(); 时,这个问题经常发生;在每个 return 语句之前。