运行 Slurm 集群上的批处理作业

Running Batch Job on Slurm Cluster

所以我现在花了几个小时试图解决这个问题,非常感谢任何帮助。

我想做的是 运行 带有 slurm 的批处理作业 --array0-654

我希望每个作业步骤 运行 8 个线程。

我可以访问集群上的 11 个节点,每个节点都有 32 个线程,但我似乎无法正确配置 SBATCH。似乎 运行 每个节点一个作业或 运行 所有节点的 200 多个作业。

我尝试了很多不同的配置,想知道是否有人有一些建议。

根据你的描述,你应该使用

--array 0-654
--ntasks 1
--cpus-per-task 8

但结果将取决于集群配置(特别是节点之间是否可以共享节点、是否存在作业数量限制等)