SLURM 使用新的 JOBID 重新排队
SLURM requeue with new JOBID
是否可以设置一些重新排队选项,以便在 slurm 决定重新排队作业时更改 JOBID。 (例如,在节点故障之后)
这样与第一个 JOBID 关联的文件夹就不会被覆盖。
谢谢,
重新排队的作业仍然是同一个作业,因此作业 ID 不会改变。
您可以做的是用--no-requeue
防止重新排队。但是随后您将需要 re-submit 手动或使用工作流管理器来完成这项工作。
另一种选择是将重新启动计数附加到文件夹名称。例如,如果您的提交脚本有一行
WORKDIR=/some/path/${SLURM_JOB_ID}
mkdir -p $WORKDIR
cd $WORKDIR
您可以将其替换为
mkdir -p /some/path/${SLURM_JOB_ID}${SLURM_RESTART_COUNT}
mkdir -p $WORKDIR
cd $WORKDIR
首先 运行,$SLURM_RESTART_COUNT
将被取消设置,保留原始行为,但随后,它将被设置为 1、2 等等,有效地为作业 ID 添加后缀重新排队号码。
对于输出文件的名称,您可以使用--open-mode=append
以避免在作业重新启动时覆盖输出文件。
是否可以设置一些重新排队选项,以便在 slurm 决定重新排队作业时更改 JOBID。 (例如,在节点故障之后) 这样与第一个 JOBID 关联的文件夹就不会被覆盖。
谢谢,
重新排队的作业仍然是同一个作业,因此作业 ID 不会改变。
您可以做的是用--no-requeue
防止重新排队。但是随后您将需要 re-submit 手动或使用工作流管理器来完成这项工作。
另一种选择是将重新启动计数附加到文件夹名称。例如,如果您的提交脚本有一行
WORKDIR=/some/path/${SLURM_JOB_ID}
mkdir -p $WORKDIR
cd $WORKDIR
您可以将其替换为
mkdir -p /some/path/${SLURM_JOB_ID}${SLURM_RESTART_COUNT}
mkdir -p $WORKDIR
cd $WORKDIR
首先 运行,$SLURM_RESTART_COUNT
将被取消设置,保留原始行为,但随后,它将被设置为 1、2 等等,有效地为作业 ID 添加后缀重新排队号码。
对于输出文件的名称,您可以使用--open-mode=append
以避免在作业重新启动时覆盖输出文件。