slurm 是否需要在所有节点上使用相同的版本?

Does slurm require same version accross all nodes?

我正在试验集群设置,其中不同的节点有 19 或 20 版本的 slurm。 管理节点有 SLURM 20.

出于某种原因,具有 SLURM 19 的节点无法 ping 管理器 (scontrol ping returns Slurmctld(primary) on node0 is DOWN)。

不知道是SLURM 19/20不兼容还是我其他地方搞砸了

谢谢。

您的系统上可以有不同版本的 slurm 组件,但有一个顺序:

slurmdbd >= slurmctld >= slurmd >= slurm-commands

您应该保留三个版本(参见 https://slurm.schedmd.com/SLUG20/Field_Notes.pdf,幻灯片 14)。

作为侧节点:主要版本是前四位数字,基于年份和月份 (yy.mm):20.02 是当前主要版本,19.05 是前一个,20.11 是下一个。