PBS 自动重启失败的作业

PBS automatically restart failed jobs

我使用 PBS 作业数组来提交多个作业。有时,少数工作会搞砸,无法 运行 成功。有没有办法自动检测失败的作业并重新启动它们?

pbs_server支持automatic_requeue_exit_code:

an exit code, defined by the admin, that tells pbs_server to requeue the job instead of considering it as completed. This allows the user to add some additional checks that the job can run meaningfully, and if not, then the job script exits with the specified code to be requeued.

在序言失败的情况下也有重新排队作业的规定(请参阅 prologue/epilogue 脚本文档)。

可能有更复杂的方法可以做到这一点,但它们不属于 built-in 扭矩选项的范围。