使用胖树架构的 HPC 的进程数量增加时速度变慢

Slowdown at increased number of processes for HPC with fat-tree architecture

我注意到我在具有胖树架构的 HPC 上 运行 的一个简单程序有一些特别奇怪的地方,我不确定为什么我会得到这样的结果得到.

我创建的程序只是在不同数量的进程(使用 MPI)上打印程序的运行时间。我通过将进程数从 2 增加 2^n 到 256 来进行实验,虽然随着进程数从 2 增加到 8 个进程,每个进程的执行时间趋于减少,但这次在 64 个进程时急剧增加。

会不会是架构本身的问题?我想执行时间会随着进程数量的增加而减少,但超过一定的进程阈值似乎并非如此。

我不久前在阅读文档后发现了这个问题(请看图)并想 post 此处的解决方案以防有人遇到类似问题。在我使用的 HPC(AFRL 的 Mustang)上,我在登录节点上使用 mpirun 执行我的程序。文档明确指出作业需要根据用户指南第 6 节通过批处理脚本提交:

https://www.afrl.hpc.mil/docs/mustangQuickStartGuide.html#jobSubmit