访问 slurm 停止工作的原因
Access reason why slurm stopped a job
有没有办法找出作业被 slurm 取消的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。万一达到资源限制,我也想知道是哪一个。
slurm 日志文件明确包含该信息。它也被写入作业的输出文件,如:
JOB <jobid> CANCELLED AT <time> DUE TO TIME LIMIT
或
Job <jobid> exceeded <mem> memory limit, being killed:
或
JOB <jobid> CANCELLED AT <time> DUE TO NODE FAILURE
等等
有没有办法找出作业被 slurm 取消的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。万一达到资源限制,我也想知道是哪一个。
slurm 日志文件明确包含该信息。它也被写入作业的输出文件,如:
JOB <jobid> CANCELLED AT <time> DUE TO TIME LIMIT
或
Job <jobid> exceeded <mem> memory limit, being killed:
或
JOB <jobid> CANCELLED AT <time> DUE TO NODE FAILURE
等等