取消 SLURM 上同一分区上的作业 运行
Cancel jobs running on the same partition on SLURM
使用命令
$>squeue -u mnyber004
我可以在我的集群帐户 (slurm) 上可视化所有提交的作业
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
16884 ada CPUeq6 mnyber00 R 1-01:26:17 1 srvcnthpc105
16882 ada CPUeq4 mnyber00 R 1-01:26:20 1 srvcnthpc104
16878 ada CPUeq2 mnyber00 R 1-01:26:31 1 srvcnthpc104
20126 ada CPUeq1 mnyber00 R 22:32:28 1 srvcnthpc103
22004 curie WRI_0015 mnyber00 R 16:11 1 srvcnthpc603
22002 curie WRI_0014 mnyber00 R 16:13 1 srvcnthpc603
22000 curie WRI_0013 mnyber00 R 16:14 1 srvcnthpc603
如何取消分区 ada
上的所有作业 运行?
对于您的情况,scancel
提供了适当的过滤器,因此您只需 运行
scancel -u mnyber004 -p ada
如果不是这样,一个常见的习惯用法是使用 squeue
和 --format
选项更强大的过滤属性来构建正确的命令,然后将其提供给 sh
:
squeue -u mnyber004 -p ada --format "scancel %i" | sh
您可以通过先保存到文件然后获取文件来更安全地播放它。
squeue -u mnyber004 -p ada --format "scancel %j" > /tmp/remove.sh
source remove.sh
使用命令
$>squeue -u mnyber004
我可以在我的集群帐户 (slurm) 上可视化所有提交的作业
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
16884 ada CPUeq6 mnyber00 R 1-01:26:17 1 srvcnthpc105
16882 ada CPUeq4 mnyber00 R 1-01:26:20 1 srvcnthpc104
16878 ada CPUeq2 mnyber00 R 1-01:26:31 1 srvcnthpc104
20126 ada CPUeq1 mnyber00 R 22:32:28 1 srvcnthpc103
22004 curie WRI_0015 mnyber00 R 16:11 1 srvcnthpc603
22002 curie WRI_0014 mnyber00 R 16:13 1 srvcnthpc603
22000 curie WRI_0013 mnyber00 R 16:14 1 srvcnthpc603
如何取消分区 ada
上的所有作业 运行?
对于您的情况,scancel
提供了适当的过滤器,因此您只需 运行
scancel -u mnyber004 -p ada
如果不是这样,一个常见的习惯用法是使用 squeue
和 --format
选项更强大的过滤属性来构建正确的命令,然后将其提供给 sh
:
squeue -u mnyber004 -p ada --format "scancel %i" | sh
您可以通过先保存到文件然后获取文件来更安全地播放它。
squeue -u mnyber004 -p ada --format "scancel %j" > /tmp/remove.sh
source remove.sh