如何同时跨多个分区提交作业 (Slurm)
How to submit jobs across multiple partitions at the same time (Slurm)
今天投稿到node/partitioncn430
后,发现节点一直在沉迷,
在上一个作业完成后,我的作业由于优先级问题仍然没有得到 运行。然后我注意到所有这些作业都有相同的前缀,即 4988443
,它位于我的作业 ID 4988560
.
之前
用户似乎已经跨多个分区提交了大约 1000 个具有相同优先级的作业,
我想知道如何实现它。
首先,cn430
确实看起来像一个节点而不是一个分区。所属分区好像是shared-gp
.
你看到的是job array。这是一种提交大量仅特定参数不同的作业的方法。数组中的每个作业都是独立调度的,因此如果您不请求特定节点(例如使用 -w
或 --nodelist
),Slurm 会将它们广播到可用的节点。
请注意,如果正在实施 faishare,作业优先级将随着时间的推移而降低,因此当前待处理的作业的优先级将降低,因为当前 运行。
今天投稿到node/partitioncn430
后,发现节点一直在沉迷,
在上一个作业完成后,我的作业由于优先级问题仍然没有得到 运行。然后我注意到所有这些作业都有相同的前缀,即 4988443
,它位于我的作业 ID 4988560
.
用户似乎已经跨多个分区提交了大约 1000 个具有相同优先级的作业,
我想知道如何实现它。
首先,cn430
确实看起来像一个节点而不是一个分区。所属分区好像是shared-gp
.
你看到的是job array。这是一种提交大量仅特定参数不同的作业的方法。数组中的每个作业都是独立调度的,因此如果您不请求特定节点(例如使用 -w
或 --nodelist
),Slurm 会将它们广播到可用的节点。
请注意,如果正在实施 faishare,作业优先级将随着时间的推移而降低,因此当前待处理的作业的优先级将降低,因为当前 运行。