slurm 是否需要在所有节点上使用相同的版本?
Does slurm require same version accross all nodes?
我正在试验集群设置,其中不同的节点有 19 或 20 版本的 slurm。
管理节点有 SLURM 20.
出于某种原因,具有 SLURM 19 的节点无法 ping 管理器 (scontrol ping
returns Slurmctld(primary) on node0 is DOWN
)。
不知道是SLURM 19/20不兼容还是我其他地方搞砸了
谢谢。
您的系统上可以有不同版本的 slurm 组件,但有一个顺序:
slurmdbd >= slurmctld >= slurmd >= slurm-commands
您应该保留三个版本(参见 https://slurm.schedmd.com/SLUG20/Field_Notes.pdf,幻灯片 14)。
作为侧节点:主要版本是前四位数字,基于年份和月份 (yy.mm):20.02 是当前主要版本,19.05 是前一个,20.11 是下一个。
我正在试验集群设置,其中不同的节点有 19 或 20 版本的 slurm。 管理节点有 SLURM 20.
出于某种原因,具有 SLURM 19 的节点无法 ping 管理器 (scontrol ping
returns Slurmctld(primary) on node0 is DOWN
)。
不知道是SLURM 19/20不兼容还是我其他地方搞砸了
谢谢。
您的系统上可以有不同版本的 slurm 组件,但有一个顺序:
slurmdbd >= slurmctld >= slurmd >= slurm-commands
您应该保留三个版本(参见 https://slurm.schedmd.com/SLUG20/Field_Notes.pdf,幻灯片 14)。
作为侧节点:主要版本是前四位数字,基于年份和月份 (yy.mm):20.02 是当前主要版本,19.05 是前一个,20.11 是下一个。