HPC 计算节点不是 运行 个作业

HPC compute node not running jobs

我没有太多信息,所以请让我知道我可以做些什么来诊断这个问题。

我的 HPC 有几个计算节点,我昨晚提交的其中一项作业在运行了几个小时后暂停了。今天早上我检查了 qstat,发现自从我昨天最后一次检查以来它没有任何进展。其他节点似乎正在处理作业。

我删除了该作业并重新提交了它,但它看起来好像在队列中,即使在它之前没有安排其他作业。

gstat 显示它没有排队的进程,但节点处于活动状态。

qstat -s 说 "Not running: Draining system to allow starving job to run"

如果有帮助,这是在CentOS 6.5环境下设置的。

我还能做些什么来诊断这个问题?

事实证明,扭矩脚本 运行 超过 24 小时会导致所有其他提交给调度程序的作业暂停。我们需要终止负责的工作,一切都恢复原状。