MPI_Comm_split 和 openmpi 1.4.3 的问题
Problems with MPI_Comm_split and openmpi 1.4.3
我遇到了 MPI_Split_comm 的问题,似乎只有在使用 openmpi 1.4.3 时才会出现。示例代码:
#include <mpi.h>
#include <cassert>
#include <vector>
const size_t n_test=1000000;
class MyComm{
private:
MPI_Comm comm;
public:
int size,rank;
MyComm(){
comm=MPI_COMM_WORLD;
MPI_Comm_rank(comm,&rank);
MPI_Comm_size(comm,&size);
}
MyComm(const MyComm&);
MyComm(const MyComm& c, int col){
MPI_Comm_split(c.comm,col,c.rank,&comm);
MPI_Comm_size(comm,&size);
MPI_Comm_rank(comm,&rank);
}
~MyComm(){
if(comm!=MPI_COMM_WORLD) MPI_Comm_free(&comm);
}
};
void split(){
std::vector<MyComm*> communicators;
communicators.push_back(new MyComm());
while(communicators.back()->size >1){
int size=communicators.back()->size;
int rank=communicators.back()->rank;
int color= (rank >= size/2) ? 1 : 0;
communicators.push_back(new MyComm(*communicators.back(),color));
if(color==0) assert( communicators.back()->size==(size-size%2)/2 );
else assert( communicators.back()->size==(size+size%2)/2 );
}
for(size_t i=0;i<communicators.size();++i) delete communicators[i];
}
int main(int argc, char** argv){
MPI_Init(&argc,&argv);
for(size_t count=0;count<n_test;++count) split();
MPI_Finalize();
return 0;
}
问题是新通讯器的尺寸并不总是正确的。该问题只发生在一定数量的进程中,例如7. 此外,它不会在每次执行中都发生。我用 g++ 和 icpc 编译了代码(在 Ubuntu 12.04,openmpi 1.4.3 上),两个可执行文件都出现了错误。如果使用 openmpi 1.6.5 或 1.8.3,则不会出现该错误。这可能看起来像是 openmpi 1.4.3 中的错误,但由于在错误使用的情况下 mpi 的行为未指定,因此它也可能是代码的问题。所以,我的问题是:
1) 谁能找出我代码中的错误?
2) 有谁知道 openmpi 1.4.3 中 MPI_Comm_split 的问题已经在以后的版本中解决了吗?
(顺便说一句:所有 MPI 例程 return MPI_SUCCESS)
乍一看,您的代码看起来不错。
我会坚持使用更高版本的 Open MPI,因为自 1.4.x 系列以来已经修复了无数错误。具体来说: 1.4.x 太旧了,甚至可能不值得通过记录来查看 MPI_COMM_SPLIT 的问题是否已从那时起得到解决。
我遇到了 MPI_Split_comm 的问题,似乎只有在使用 openmpi 1.4.3 时才会出现。示例代码:
#include <mpi.h>
#include <cassert>
#include <vector>
const size_t n_test=1000000;
class MyComm{
private:
MPI_Comm comm;
public:
int size,rank;
MyComm(){
comm=MPI_COMM_WORLD;
MPI_Comm_rank(comm,&rank);
MPI_Comm_size(comm,&size);
}
MyComm(const MyComm&);
MyComm(const MyComm& c, int col){
MPI_Comm_split(c.comm,col,c.rank,&comm);
MPI_Comm_size(comm,&size);
MPI_Comm_rank(comm,&rank);
}
~MyComm(){
if(comm!=MPI_COMM_WORLD) MPI_Comm_free(&comm);
}
};
void split(){
std::vector<MyComm*> communicators;
communicators.push_back(new MyComm());
while(communicators.back()->size >1){
int size=communicators.back()->size;
int rank=communicators.back()->rank;
int color= (rank >= size/2) ? 1 : 0;
communicators.push_back(new MyComm(*communicators.back(),color));
if(color==0) assert( communicators.back()->size==(size-size%2)/2 );
else assert( communicators.back()->size==(size+size%2)/2 );
}
for(size_t i=0;i<communicators.size();++i) delete communicators[i];
}
int main(int argc, char** argv){
MPI_Init(&argc,&argv);
for(size_t count=0;count<n_test;++count) split();
MPI_Finalize();
return 0;
}
问题是新通讯器的尺寸并不总是正确的。该问题只发生在一定数量的进程中,例如7. 此外,它不会在每次执行中都发生。我用 g++ 和 icpc 编译了代码(在 Ubuntu 12.04,openmpi 1.4.3 上),两个可执行文件都出现了错误。如果使用 openmpi 1.6.5 或 1.8.3,则不会出现该错误。这可能看起来像是 openmpi 1.4.3 中的错误,但由于在错误使用的情况下 mpi 的行为未指定,因此它也可能是代码的问题。所以,我的问题是:
1) 谁能找出我代码中的错误?
2) 有谁知道 openmpi 1.4.3 中 MPI_Comm_split 的问题已经在以后的版本中解决了吗?
(顺便说一句:所有 MPI 例程 return MPI_SUCCESS)
乍一看,您的代码看起来不错。
我会坚持使用更高版本的 Open MPI,因为自 1.4.x 系列以来已经修复了无数错误。具体来说: 1.4.x 太旧了,甚至可能不值得通过记录来查看 MPI_COMM_SPLIT 的问题是否已从那时起得到解决。