如何使用 SLURM 停止计算节点?
How to stop a compute node with SLURM?
我在 AWS 上使用 SLURM 来管理作为 AWS parallelcluster 一部分的作业。我有两个问题:
- 使用
scancel *jobid*
取消作业时,相关节点不会停止。我怎样才能做到这一点?
- 开始时,我犯了一个错误,没有让我的脚本可执行,所以
sbatch *script.sh*
可以工作,但计算节点什么都不做。我如何识别此类行为并妥善处理?是正确的,例如例如,在一段时间后停止空闲节点并将其输出到日志中?我怎样才能做到这一点?
查看文档中的此页面:https://docs.aws.amazon.com/parallelcluster/latest/ug/autoscaling.html
最重要的是,没有作业的时间超过 scaledown_idletime(默认设置为 10 分钟)的实例将被集群自动缩减(终止)。
如果 10 分钟太长,您可以在构建集群时调整配置文件中的设置。首先考虑您的工作量,因为您不希望作业之间的小延迟导致您在等待节点死亡时造成大量流失,然后在不久之后再次创建,因此需要 10 分钟。
我在 AWS 上使用 SLURM 来管理作为 AWS parallelcluster 一部分的作业。我有两个问题:
- 使用
scancel *jobid*
取消作业时,相关节点不会停止。我怎样才能做到这一点? - 开始时,我犯了一个错误,没有让我的脚本可执行,所以
sbatch *script.sh*
可以工作,但计算节点什么都不做。我如何识别此类行为并妥善处理?是正确的,例如例如,在一段时间后停止空闲节点并将其输出到日志中?我怎样才能做到这一点?
查看文档中的此页面:https://docs.aws.amazon.com/parallelcluster/latest/ug/autoscaling.html
最重要的是,没有作业的时间超过 scaledown_idletime(默认设置为 10 分钟)的实例将被集群自动缩减(终止)。
如果 10 分钟太长,您可以在构建集群时调整配置文件中的设置。首先考虑您的工作量,因为您不希望作业之间的小延迟导致您在等待节点死亡时造成大量流失,然后在不久之后再次创建,因此需要 10 分钟。