如何使用 SLURM 停止计算节点?

How to stop a compute node with SLURM?

我在 AWS 上使用 SLURM 来管理作为 AWS parallelcluster 一部分的作业。我有两个问题:

查看文档中的此页面:https://docs.aws.amazon.com/parallelcluster/latest/ug/autoscaling.html

最重要的是,没有作业的时间超过 scaledown_idletime(默认设置为 10 分钟)的实例将被集群自动缩减(终止)。

如果 10 分钟太长,您可以在构建集群时调整配置文件中的设置。首先考虑您的工作量,因为您不希望作业之间的小延迟导致您在等待节点死亡时造成大量流失,然后在不久之后再次创建,因此需要 10 分钟。