Slurm:作业代码如何到达计算节点?

Slurm: how does a job's code reaches the compute nodes?

如果我在 slurm 中使用 MPI,我想了解作业的代码或应用程序如何使用 --srun 甚至节点到达分配的计算机节点?

我听说集群通常有共享文件系统。这是否意味着节点只是从共享文件系统获取作业代码,还是节点直接相互通信?

很遗憾,我没有在 slurm 的文档中找到有关它的信息。

Slurm 将假设所需文件(代码以及配置文件和数据)的路径可以从所有计算节点以相同的方式访问。

通常,集群配备了一个网络文件系统(例如 NFS),它安装在所有登录和计算节点上。它通常是用户的主目录,即连接时用户所在的目录'placed'。它适用于代码、可执行文件和小文件。

集群通常还提供另一个文件系统,一个并行文件系统(例如 Lustre、BeeGFS 等),它也安装在所有计算节点上。通常,并行文件系统比网络文件系统快,但要少 'safe';没有备份,没有快照等。这意味着临时数据。