Slurm:失败的作业将被 --requeue 多少次
Slurm: how many times will failed jobs be --requeue'd
我有一个 Slurm 作业数组,作业文件包含一个 --requeue
指令。这是完整的作业文件:
#!/bin/bash
#SBATCH --job-name=catsss
#SBATCH --output=logs/cats.log
#SBATCH --array=1-10000
#SBATCH --requeue
#SBATCH --partition=scavenge
#SBATCH --mem=32g
#SBATCH --time=24:00:00
#SBATCH --mail-type=FAIL
#SBATCH --mail-user=douglas.duhaime@gmail.com
module load Langs/Python/3.4.3
python3 cats.py ${SLURM_ARRAY_TASK_ID} 'cats'
几个数组值至少重新启动了一次。我想知道,这些作业在最终被调度程序取消之前会重新启动多少次?重新启动是否会无限期地进行,直到系统管理员手动取消它们,或者像这样的作业是否有最大重试次数?
据我所知,作业可以在无数次中重新排队。您只需决定作业是否准备好重新排队。如果不是重新排队,那么它永远不会被重新排队。如果重新排队,那么每次系统决定需要它时都会重新排队(节点故障,更高优先级的作业抢占......)。
作业不断重新启动,直到完成(成功或不成功,但完成而不是中断)。
我有一个 Slurm 作业数组,作业文件包含一个 --requeue
指令。这是完整的作业文件:
#!/bin/bash
#SBATCH --job-name=catsss
#SBATCH --output=logs/cats.log
#SBATCH --array=1-10000
#SBATCH --requeue
#SBATCH --partition=scavenge
#SBATCH --mem=32g
#SBATCH --time=24:00:00
#SBATCH --mail-type=FAIL
#SBATCH --mail-user=douglas.duhaime@gmail.com
module load Langs/Python/3.4.3
python3 cats.py ${SLURM_ARRAY_TASK_ID} 'cats'
几个数组值至少重新启动了一次。我想知道,这些作业在最终被调度程序取消之前会重新启动多少次?重新启动是否会无限期地进行,直到系统管理员手动取消它们,或者像这样的作业是否有最大重试次数?
据我所知,作业可以在无数次中重新排队。您只需决定作业是否准备好重新排队。如果不是重新排队,那么它永远不会被重新排队。如果重新排队,那么每次系统决定需要它时都会重新排队(节点故障,更高优先级的作业抢占......)。
作业不断重新启动,直到完成(成功或不成功,但完成而不是中断)。