SLURM 使用新的 JOBID 重新排队

SLURM requeue with new JOBID

是否可以设置一些重新排队选项,以便在 slurm 决定重新排队作业时更改 JOBID。 (例如,在节点故障之后) 这样与第一个 JOBID 关联的文件夹就不会被覆盖。

谢谢,

重新排队的作业仍然是同一个作业,因此作业 ID 不会改变。

您可以做的是--no-requeue防止重新排队。但是随后您将需要 re-submit 手动或使用工作流管理器来完成这项工作。

另一种选择是将重新启动计数附加到文件夹名称。例如,如果您的提交脚本有一行

WORKDIR=/some/path/${SLURM_JOB_ID}
mkdir -p $WORKDIR
cd $WORKDIR

您可以将其替换为

mkdir -p /some/path/${SLURM_JOB_ID}${SLURM_RESTART_COUNT}
mkdir -p $WORKDIR
cd $WORKDIR

首先 运行,$SLURM_RESTART_COUNT 将被取消设置,保留原始行为,但随后,它将被设置为 1、2 等等,有效地为作业 ID 添加后缀重新排队号码。

对于输出文件的名称,您可以使用--open-mode=append以避免在作业重新启动时覆盖输出文件。