let slurmctld "think" nodes are idle~ like after "SuspendProgram", 但实际上它们在启动时处于关闭状态

let slurmctld "think" that nodes are idle~ like after "SuspendProgram", but in fact they are down when it starts

有没有办法在执行节点关闭的情况下启动 slurmctld 守护进程,但让它相信他已经请求暂停这些节点(例如,如果它调用了 SuspendProgram)?

我正在设置虚拟集群,因此 SuspendProgramResumeProgram 会终止并实例化虚拟机。这样我就可以只启动主节点,他只会在请求时启动节点。

目前的问题是,当我启动 slurmctld 时,我需要节点启动,告诉他它们退出,然后等待他关闭它们。这增加了不必要的成本,因为我需要启动所有 "supposed" 个实例。

我想实例化主人,运行 slurmctld,让他认为节点是 idle~ 就像 SuspendProgram 之后.

干杯

您可以尝试将节点设置为 slurm.conf 中的状态 POWER_DOWN,这样在启动时,slurmctld 将看到这些节点因 SuspendProgram

NodeName=... Sockets=... CoresPerSocket... [etc] State=POWER_DOWN