当一个等级崩溃时,OpenMPI 不会杀死其他等级
OpenMPI doesn't kill other rank when one rank crashes
我有一些示例代码:
#include <mpi.h>
#include <stdio.h>
#include <stdlib.h>
#include <signal.h>
int main(int argc, char** argv) {
// Initialize the MPI environment
MPI_Init(&argc, &argv);
// Find out rank, size
int world_rank;
MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
int world_size;
MPI_Comm_size(MPI_COMM_WORLD, &world_size);
// We are assuming at least 2 processes for this task
if (world_size < 2) {
fprintf(stderr, "World size must be greater than 1 for %s\n", argv[0]);
MPI_Abort(MPI_COMM_WORLD, 1);
}
int number;
if (world_rank == 1) {
number = -1;
MPI_Send(&number, 1, MPI_INT, 0, 0, MPI_COMM_WORLD);
raise(SIGSEGV);
} else if (world_rank == 0) {
MPI_Recv(&number, 1, MPI_INT, 1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
printf("Process 0 received number %d from process 1\n", number);
}
printf("rank %d finalize\n", world_rank);
MPI_Finalize();
}
等级 1 发出模拟碰撞的信号。 raise()
排名 1 退出后。但是排名 0 的剧照打印 rank 0 finalize
.
在这种情况下,有没有办法知道等级 0 中等级 1 是否崩溃?是否可以让 mpirun
在等级 1 崩溃时杀死等级 0?
请注意您的问题中存在竞争条件,mpirun
可能没有足够的时间注意到任务 1 崩溃并在打印消息之前终止任务 0。
您可以使用以下选项强制 Open MPI 在检测到崩溃后立即终止所有任务
mpirun -mca orte_abort_on_non_zero_status 1 ...
我有一些示例代码:
#include <mpi.h>
#include <stdio.h>
#include <stdlib.h>
#include <signal.h>
int main(int argc, char** argv) {
// Initialize the MPI environment
MPI_Init(&argc, &argv);
// Find out rank, size
int world_rank;
MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
int world_size;
MPI_Comm_size(MPI_COMM_WORLD, &world_size);
// We are assuming at least 2 processes for this task
if (world_size < 2) {
fprintf(stderr, "World size must be greater than 1 for %s\n", argv[0]);
MPI_Abort(MPI_COMM_WORLD, 1);
}
int number;
if (world_rank == 1) {
number = -1;
MPI_Send(&number, 1, MPI_INT, 0, 0, MPI_COMM_WORLD);
raise(SIGSEGV);
} else if (world_rank == 0) {
MPI_Recv(&number, 1, MPI_INT, 1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
printf("Process 0 received number %d from process 1\n", number);
}
printf("rank %d finalize\n", world_rank);
MPI_Finalize();
}
等级 1 发出模拟碰撞的信号。 raise()
排名 1 退出后。但是排名 0 的剧照打印 rank 0 finalize
.
在这种情况下,有没有办法知道等级 0 中等级 1 是否崩溃?是否可以让 mpirun
在等级 1 崩溃时杀死等级 0?
请注意您的问题中存在竞争条件,mpirun
可能没有足够的时间注意到任务 1 崩溃并在打印消息之前终止任务 0。
您可以使用以下选项强制 Open MPI 在检测到崩溃后立即终止所有任务
mpirun -mca orte_abort_on_non_zero_status 1 ...