Fortran netcdf 关闭并行死锁

Question

我正在调整一个 fortran mpi 程序，从顺序写入到并行写入某些类型的文件。它使用 netcdf 4.3.3.1/hdf5 1.8.9 并行。我使用的是intel编译器版本14.0.3.174.

完成所有 reads/writes 后，就可以关闭文件了。此时，模拟不再继续。所以所有的电话都在等待。当我检查每个处理器的调用堆栈时，我可以看到主根与其他处理器不同。

Mpi 主处理器调用堆栈：

__sched_yield,                                 FP=7ffc6aa978b0
opal_progress,                                 FP=7ffc6aa978d0
ompi_request_default_wait_all,                 FP=7ffc6aa97940
ompi_coll_tuned_sendrecv_actual,               FP=7ffc6aa979e0
ompi_coll_tuned_barrier_intra_recursivedoubling, FP=7ffc6aa97a40
PMPI_Barrier,                                  FP=7ffc6aa97a60
H5AC_rsp__dist_md_write__flush,                FP=7ffc6aa97af0
H5AC_flush,                                    FP=7ffc6aa97b20
H5F_flush,                                     FP=7ffc6aa97b50
H5F_flush_mounts,                              FP=7ffc6aa97b80
H5Fflush,                                      FP=7ffc6aa97ba0
NC4_close,                                     FP=7ffc6aa97be0
nc_close,                                      FP=7ffc6aa97c00
restclo,                                       FP=7ffc6aa98660
driver,                                        FP=7ffc6aaa5ef0
 main,                                          FP=7ffc6aaa5f90
 __libc_start_main,                             FP=7ffc6aaa6050
 _start,

剩余处理器调用堆栈：

__sched_yield,                                 FP=7fffe330cdd0
opal_progress,                                 FP=7fffe330cdf0
ompi_request_default_wait,                     FP=7fffe330ce50
ompi_coll_tuned_bcast_intra_generic,           FP=7fffe330cf30
ompi_coll_tuned_bcast_intra_binomial,          FP=7fffe330cf90
ompi_coll_tuned_bcast_intra_dec_fixed,         FP=7fffe330cfb0
mca_coll_sync_bcast,                           FP=7fffe330cff0
PMPI_Bcast,                                    FP=7fffe330d030
mca_io_romio_dist_MPI_File_set_size,           FP=7fffe330d080
PMPI_File_set_size,                            FP=7fffe330d0a0
H5FD_mpio_truncate,                            FP=7fffe330d0c0
H5FD_truncate,                                 FP=7fffe330d0f0
H5F_dest,                                      FP=7fffe330d110
H5F_try_close,                                 FP=7fffe330d340
H5F_close,                                     FP=7fffe330d360
H5I_dec_ref,                                   FP=7fffe330d370
H5I_dec_app_ref,                               FP=7fffe330d380
H5Fclose,                                      FP=7fffe330d3a0
NC4_close,                                     FP=7fffe330d3e0
nc_close,                                      FP=7fffe330d400
RESTCOM`restclo,                               FP=7fffe330de60
driver,                                        FP=7fffe331b6f0
main,                                          FP=7fffe331b7f0
__libc_start_main,                             FP=7fffe331b8b0
_start,

我确实意识到一个调用堆栈包含 bcast 和另一个障碍。这可能会导致死锁。然而，我没有预见到如何从这里继续。如果 mpi 调用未正确完成（例如仅在 1 个过程中调用），我希望出现错误消息而不是此类行为。

更新：源代码大约有 10 万行。

文件是这样打开的：

cmode = ior(NF90_NOCLOBBER,NF90_NETCDF4)
cmode = ior(cmode, NF90_MPIIO)
CALL ipslnc( NF90_CREATE(fname,cmode=cmode,ncid=ncfid, comm=MPI_COMM, info=MPI_INFO))

并关闭为：

iret = NF90_CLOSE(ncfid)

Answer 1

事实证明，在编写 NF90_PUT_ATT 时，根处理器与其他处理器相比具有不同的值。解决后，程序将按预期运行。

Fortran netcdf 关闭并行死锁

fortran netcdf close parallel deadlock

parallel-processing

fortran

mpi

hdf5

netcdf