我在 SLURM 集群中有一份工作停止了,现在显示 "PREEMPTED",这是什么意思?

I have a job in a SLURM cluster that stopped and now says "PREEMPTED", what does that mean?

我 运行 SLURM 集群中的一份工作,有一段时间,这份工作 运行 还不错。上次我使用队列命令 squeue 它报告:

JOBID   PARTITION NAME     USER    ST     TIME  NODES NODELIST(REASON)
2394852 serial_re CombineP user_1  R      22:29 1     bigcluster112

但是,我刚刚检查了一下,它现在说:

JOBID   PARTITION NAME     USER    ST     TIME  NODES NODELIST(REASON)
2394852 serial_re CombineP user_1  PD     0:00      1 (Priority)

我收到一封电子邮件,说这份工作已经 "PREEMPTED"。我在网上搜索了一下,说是当有高优先级的作业时,低优先级的会停止,高优先级的运行s。这是在一个共享的大学集群上。我没有 运行 任何其他工作。这是否意味着其他人 运行 一份工作现在将我的工作置于低优先级?如何设置或击败该优先级?谢谢!

是的,有人提交了具有更高优先级的作业,或者具有优先于其他 QOS 的 QOS,或者提交到具有优先于其他分区的权限的分区。

scontrol show configscontrol show partitionssacctmgr list qos 的输出中查找单词 'Preempt' 以获取更多信息。

要了解优先级是如何计算的,请查看 scontrol show config | grep Priority 的输出并在 slurm.conf manpage.

中查找相应的关键字