如何恢复/重新提交卡住的 SGE 作业(使用 qsub?)

How to revive / resubmit stuck SGE jobs ( Usage of qsub? )

我正在尝试 revive/resubmit 由于节点崩溃或 AWS spot 实例被带走而卡住作业(运行 在 SGE 调度程序上)?有人可以帮助恢复此类工作吗?我一直在尝试了解 qsub 的用法,但无法配置自动重新提交此类作业的内容。

也无法使用 qconf 命令配置我的队列,因为只有 root & sge_admin 用户可以 运行 这个命令,我有 root-权限但是要求我设置 SGE_ROOT 环境变量,我这样做了,但仍然不断抛出错误来设置变量。

我们将不胜感激任何形式的帮助。

来自 qsub 手册页:

  -r y[es]|n[o]
       Available for qsub and qalter only.

       Identifies the ability of a job to be rerun or not.  
       If the value of -r is 'yes', the job will be rerun if the job was 
       aborted without leaving a consistent  exit state.  

       (This is typically the case if the node on which the job is running
       crashes).  If -r is 'no', the job will not be rerun under any circumstances.
       Interactive jobs submitted with qsh, qrsh or qlogin are not rerunnable.

       Qalter allows changing this option even while the job executes.

所以添加

#$ -r y

在你的工作脚本中应该满足这一点。