h5py 使用 MPI 打开文件块

h5py open file blocks with MPI

我正在尝试通过执行

使用 h5py 和 mpi 打开一个 hdf5 文件
print("Opening...")
f = h5py.File(file_path, "r", driver='mpio', comm=MPI.COMM_WORLD)
print("Done")

出于某种原因,此行在我的项目中执行时会阻塞。 我试图创建一个 小型可重现示例 但没有成功,因为该行在这些示例中的工作方式与它应该的一样。

所以我的代码库中有些东西我无法追踪,导致上述行被阻塞。

问题:什么会导致h5py.File阻塞?

注意:CPU 达到 100%,所以 mpi 似乎在等待什么...


注意 2:从我的代码库中添加了一些完全没有帮助的代码:

在 if 工作之前打开文件,在 if 内部只是块...

from mpi4py import MPI
import h5py
from DataProviderH5PYPool import init_pool, new_worker
import Settings


rank = MPI.COMM_WORLD.Get_rank()
task = [
    "main",
    "h5py_worker"
]

task = task[rank] if rank < len(task)-1 else task[-1]
print("Starting new process:  {} with rank {}".format(task,rank))

def init():
    # works
    print(h5py.File(Settings.h5py.training[0], "r", driver='mpio', comm=MPI.COMM_WORLD)["0"][0])
    if task == "main":
        # blocks
        # print(h5py.File(Settings.h5py.training[0], "r", driver='mpio', comm=MPI.COMM_WORLD)["0"][0])

        init_pool(n=MPI.COMM_WORLD.Get_size()-1)
        return True
    elif task == "h5py_worker":
        # works too but results in 
        # RuntimeError: Can't decrement id ref count (Can't close file, there are objects still open
        # print(h5py.File(Settings.h5py.training[0], "r", driver='mpio', comm=MPI.COMM_WORLD)["0"][0])

        new_worker()
        return False
    else:
        raise RuntimeError("Unsupported task '{}'".format(task))

代码通过

执行
mpiexec -n 2 python Test.py
or
mpiexec.mpich -n 2 python Test.py

安装并尝试了它们但得到了相同的结果...

我的猜测是公开调用是集体调用,因此需要由通信器中的所有进程调用,并且由于您指定 COMM_WORLD 这意味着每个人。如果您只调用一个子集,那么它会阻塞。

我不是 100% 清楚你想要做什么 - 你只想在主任务上打开文件吗?这意味着只有主任务才能实际写入文件,因此工作人员需要使用 MPI 发送他们想要写入的任何数据。

如果是这样,您可以只在 main 上调用 open 但使用通信器 COMM_SELF 这意味着它不会等待所有其他等级也调用 open。

此致,

大卫