我在 SLURM 集群中有一份工作停止了,现在显示 "PREEMPTED",这是什么意思?
I have a job in a SLURM cluster that stopped and now says "PREEMPTED", what does that mean?
我 运行 SLURM 集群中的一份工作,有一段时间,这份工作 运行 还不错。上次我使用队列命令 squeue
它报告:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2394852 serial_re CombineP user_1 R 22:29 1 bigcluster112
但是,我刚刚检查了一下,它现在说:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2394852 serial_re CombineP user_1 PD 0:00 1 (Priority)
我收到一封电子邮件,说这份工作已经 "PREEMPTED"。我在网上搜索了一下,说是当有高优先级的作业时,低优先级的会停止,高优先级的运行s。这是在一个共享的大学集群上。我没有 运行 任何其他工作。这是否意味着其他人 运行 一份工作现在将我的工作置于低优先级?如何设置或击败该优先级?谢谢!
是的,有人提交了具有更高优先级的作业,或者具有优先于其他 QOS 的 QOS,或者提交到具有优先于其他分区的权限的分区。
在 scontrol show config
、scontrol show partitions
和 sacctmgr list qos
的输出中查找单词 'Preempt' 以获取更多信息。
要了解优先级是如何计算的,请查看 scontrol show config | grep Priority
的输出并在 slurm.conf manpage.
中查找相应的关键字
我 运行 SLURM 集群中的一份工作,有一段时间,这份工作 运行 还不错。上次我使用队列命令 squeue
它报告:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2394852 serial_re CombineP user_1 R 22:29 1 bigcluster112
但是,我刚刚检查了一下,它现在说:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2394852 serial_re CombineP user_1 PD 0:00 1 (Priority)
我收到一封电子邮件,说这份工作已经 "PREEMPTED"。我在网上搜索了一下,说是当有高优先级的作业时,低优先级的会停止,高优先级的运行s。这是在一个共享的大学集群上。我没有 运行 任何其他工作。这是否意味着其他人 运行 一份工作现在将我的工作置于低优先级?如何设置或击败该优先级?谢谢!
是的,有人提交了具有更高优先级的作业,或者具有优先于其他 QOS 的 QOS,或者提交到具有优先于其他分区的权限的分区。
在 scontrol show config
、scontrol show partitions
和 sacctmgr list qos
的输出中查找单词 'Preempt' 以获取更多信息。
要了解优先级是如何计算的,请查看 scontrol show config | grep Priority
的输出并在 slurm.conf manpage.