访问 slurm 停止工作的原因

Access reason why slurm stopped a job

有没有办法找出作业被 slurm 取消的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。万一达到资源限制,我也想知道是哪一个。

slurm 日志文件明确包含该信息。它也被写入作业的输出文件,如:

JOB <jobid> CANCELLED AT <time> DUE TO TIME LIMIT

Job <jobid> exceeded <mem> memory limit, being killed:

JOB <jobid> CANCELLED AT <time> DUE TO NODE FAILURE

等等