let slurmctld "think" nodes are idle~ like after "SuspendProgram", 但实际上它们在启动时处于关闭状态
let slurmctld "think" that nodes are idle~ like after "SuspendProgram", but in fact they are down when it starts
有没有办法在执行节点关闭的情况下启动 slurmctld 守护进程,但让它相信他已经请求暂停这些节点(例如,如果它调用了 SuspendProgram)?
我正在设置虚拟集群,因此 SuspendProgram 和 ResumeProgram 会终止并实例化虚拟机。这样我就可以只启动主节点,他只会在请求时启动节点。
目前的问题是,当我启动 slurmctld 时,我需要节点启动,告诉他它们退出,然后等待他关闭它们。这增加了不必要的成本,因为我需要启动所有 "supposed" 个实例。
我想实例化主人,运行 slurmctld,让他认为节点是 idle~ 就像 SuspendProgram 之后.
干杯
您可以尝试将节点设置为 slurm.conf
中的状态 POWER_DOWN
,这样在启动时,slurmctld
将看到这些节点因 SuspendProgram
NodeName=... Sockets=... CoresPerSocket... [etc] State=POWER_DOWN
有没有办法在执行节点关闭的情况下启动 slurmctld 守护进程,但让它相信他已经请求暂停这些节点(例如,如果它调用了 SuspendProgram)?
我正在设置虚拟集群,因此 SuspendProgram 和 ResumeProgram 会终止并实例化虚拟机。这样我就可以只启动主节点,他只会在请求时启动节点。
目前的问题是,当我启动 slurmctld 时,我需要节点启动,告诉他它们退出,然后等待他关闭它们。这增加了不必要的成本,因为我需要启动所有 "supposed" 个实例。
我想实例化主人,运行 slurmctld,让他认为节点是 idle~ 就像 SuspendProgram 之后.
干杯
您可以尝试将节点设置为 slurm.conf
中的状态 POWER_DOWN
,这样在启动时,slurmctld
将看到这些节点因 SuspendProgram
NodeName=... Sockets=... CoresPerSocket... [etc] State=POWER_DOWN