Slurm 使用什么机制在计算节点和主节点之间同步文件?它是加密的吗?

What mechanism does Slurm use to sync files between compute nodes and the master node? Is it encrypted?

我已经在 AWS 上设置了一个类似于 blog post 中描述的高性能集群。生成的集群有一个主节点启动一个计算节点。

考虑以下文件(另存为 test_slurm.sh):

#!/bin/bash
#
#SBATCH --job-name=test
#SBATCH --output=res.txt
#
#SBATCH --ntasks=1
#SBATCH --time=10:00

ip a > file.txt

当我运行: sbatch test_slurm.sh从master节点,在同一目录弹出一个新的file.txt,IP信息匹配计算节点。如果我通过 ssh 进入计算节点,该文件也在那里可用。

在我看来,计算节点执行 test_slurm.sh 的内容,在其文件系统中保存一个文件,并以某种方式将其与主节点同步。什么机制负责文件同步?以这种方式同步的文件在传输过程中是否加密?

Slurm 假设所有计算节点上都有一个通用的共享文件系统,并将其作为先决条件。通常,集群会有一个“主”文件系统,使用 NFS、GPFS、Lustre、GlusterFS、BeeGFS、AndrewFS 等技术,以及具有不同 performances/reliability 权衡的其他文件系统。

但 Slurm 不会尝试传输文件 to/from 计算节点,提交脚本除外。

在您的情况下,这很可能是由您用来启动虚拟集群的过程设置的。实际上,在您引用的博客 post 中,配置文件中有一行 fsx_settings = parallel-fs 似乎表明存在并行文件系统设置。它在 [fsx parallel-fs] 部分进一步配置。通过阅读 AWS 文档,它可能是一个 Lustre 文件系统。

至于加密,它可能不是因为这种类型的文件系统是为专用网络上的性能而设计的,而不是为了 WAN 上的安全性。亚马逊程序很可能为计算节点配置了一个专用网络。

我在亚马逊论坛上问过类似的问题:https://forums.aws.amazon.com/message.jspa?messageID=968147

正如 damienfrancois 所说,“Slurm 不会尝试传输文件 to/from 计算节点,提交脚本除外。” AWS 并行集群使用 NFS 作为同步机制设置默认文件共享。

无需额外配置即可设置 NFS。这意味着目前不支持传输中加密。