使用 boost::mpi 的 mpi 中的消息大小是否有限制?

Is there a limit for the message size in mpi using boost::mpi?

我目前正在 openMPI 上使用 boost::mpi 编写模拟,一切正常。但是,一旦我扩大系统规模,因此必须发送更大的 std::vectors,我就会收到错误消息。

我已将问题简化为以下问题:

#include <boost/mpi.hpp>
#include <boost/mpi/environment.hpp>
#include <boost/mpi/communicator.hpp>
#include <boost/serialization/vector.hpp>
#include <iostream>
#include <vector>
namespace mpi = boost::mpi;

int main() {
    mpi::environment env;
    mpi::communicator world;

    std::vector<char> a;
    std::vector<char> b;
    if (world.rank() == 0) {
        for (size_t i = 1; i < 1E10; i *= 2) {
            a.resize(i);
            std::cout << "a " << a.size();
            world.isend(0, 0, a);
            world.recv(0, 0, b);
            std::cout << "\tB " << b.size() << std::endl;
        }
    }
    return 0;
}

打印出来:

a 1 B 1
a 2 B 2
a 4 B 4
....
a 16384 B 16384
a 32768 B 32768
a 65536 B 65536
a 131072    B 0
a 262144    B 0
a 524288    B 0
a 1048576   B 0
a 2097152   B 0

我知道 mpi 消息大小有限制,但 65kB 对我来说似乎有点低。 有没有办法发送更大的消息?

邮件大小的限制与 MPI_Send 相同:INT_MAX

问题是您没有等待 isend 在下一次迭代中调整矢量 a 大小之前完成。这意味着 isend 将由于向量 a 中的重新分配而读取无效数据。请注意,缓冲区 a 通过引用传递给 boost::mpi,因此在 isend 操作完成之前,您不能更改缓冲区 a

如果您 运行 您的程序带有 valgrind,您将在 i = 131072 时立即看到无效读取。

您的程序运行到 65536 字节的原因是,如果消息小于组件 btl_eager_limit,OpenMPI 将直接发送消息。对于 self 组件(发送到自己的进程),这恰好是 128*1024 字节。由于 boost::serializationstd::vector 的大小添加到字节流中,因此一旦使用 128*1024 = 131072 作为输入大小,就会超过此 eager_limit

要修复您的代码,请保存 isend() 中的 boost::mpi::request return 值,然后将 wait() 添加到循环的末尾:

#include <boost/mpi.hpp>
#include <boost/mpi/environment.hpp>
#include <boost/mpi/communicator.hpp>
#include <boost/serialization/vector.hpp>
#include <iostream>
#include <vector>
namespace mpi = boost::mpi;

int main() {
    mpi::environment env;
    mpi::communicator world;

    std::vector<char> a;
    std::vector<char> b;
    if (world.rank() == 0) {
        for (size_t i = 1; i < 1E9; i *= 2) {
            a.resize(i);
            std::cout << "a " << a.size();
            mpi::request req = world.isend(0, 0, a);
            world.recv(0, 0, b);
            std::cout << "\tB " << b.size() << std::endl;
            req.wait();
        }
    }
    return 0;
}