并行但不同的 Slurm srun 作业步骤调用不起作用
parallel but different Slurm srun job step invocations not working
我想 运行 同一程序处理大量不同的输入文件。我可以将每个作为单独的 Slurm 提交提交,但我不想通过一次倾倒 1000 个作业来淹没队列。我一直在试图弄清楚如何处理相同数量的文件,方法是首先创建一个分配,然后在该分配内使用 s运行 循环遍历所有文件,从分配中为每个调用提供一个核心。问题是无论我做什么,一次只有一个工作步骤 运行s。我能想到的最简单的测试用例是:
#!/usr/bin/env bash
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
wait
不管我分配多少核都无所谓:
time salloc -n 1 test
time salloc -n 2 test
time salloc -n 4 test
总是需要 4 秒。不能并行执行多个作业步骤吗?
请注意,在这种情况下,您会测量 运行 时间和等待时间。您的提交脚本应如下所示:
#!/usr/bin/env bash
time {
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
wait
}
然后简单地提交
salloc -n 1 test
salloc -n 2 test
salloc -n 4 test
然后您应该观察差异,以及使用 n<4
时的 srun: Job step creation temporarily disabled, retrying
等消息。
事实证明每个 cpu 的默认内存未定义,因此即使是单核作业也是 运行 通过保留所有节点的 RAM。
设置 DefMemPerCPU,或指定明确的 RAM 保留就可以了。
由于 OP 解决了他的问题但没有提供代码,我将在下面分享我对这个问题的看法。
在我的例子中,我遇到了 error/warning step creation temporarily disabled, retrying (Requested nodes are busy)
。这是因为,最先执行的 srun
命令分配了所有内存。与OP遇到的原因相同。要解决这个问题,首先可以选择(?)指定 sbatch
的总内存分配(如果您使用的是 sbatch
脚本):
#SBATCH --ntasks=4
#SBATCH --mem=[XXXX]MB
然后指定每个srun
任务的内存使用:
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
wait
我没有为 srun
指定 CPU 计数,因为在我的 sbatch
脚本中我包含了 #SBATCH --cpus-per-task=1
。出于同样的原因,我怀疑您可以在 srun
命令中使用 --mem
而不是 --mem-per-cpu
,但我还没有测试过此配置。
我想 运行 同一程序处理大量不同的输入文件。我可以将每个作为单独的 Slurm 提交提交,但我不想通过一次倾倒 1000 个作业来淹没队列。我一直在试图弄清楚如何处理相同数量的文件,方法是首先创建一个分配,然后在该分配内使用 s运行 循环遍历所有文件,从分配中为每个调用提供一个核心。问题是无论我做什么,一次只有一个工作步骤 运行s。我能想到的最简单的测试用例是:
#!/usr/bin/env bash
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
wait
不管我分配多少核都无所谓:
time salloc -n 1 test
time salloc -n 2 test
time salloc -n 4 test
总是需要 4 秒。不能并行执行多个作业步骤吗?
请注意,在这种情况下,您会测量 运行 时间和等待时间。您的提交脚本应如下所示:
#!/usr/bin/env bash
time {
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
wait
}
然后简单地提交
salloc -n 1 test
salloc -n 2 test
salloc -n 4 test
然后您应该观察差异,以及使用 n<4
时的 srun: Job step creation temporarily disabled, retrying
等消息。
事实证明每个 cpu 的默认内存未定义,因此即使是单核作业也是 运行 通过保留所有节点的 RAM。
设置 DefMemPerCPU,或指定明确的 RAM 保留就可以了。
由于 OP 解决了他的问题但没有提供代码,我将在下面分享我对这个问题的看法。
在我的例子中,我遇到了 error/warning step creation temporarily disabled, retrying (Requested nodes are busy)
。这是因为,最先执行的 srun
命令分配了所有内存。与OP遇到的原因相同。要解决这个问题,首先可以选择(?)指定 sbatch
的总内存分配(如果您使用的是 sbatch
脚本):
#SBATCH --ntasks=4
#SBATCH --mem=[XXXX]MB
然后指定每个srun
任务的内存使用:
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
wait
我没有为 srun
指定 CPU 计数,因为在我的 sbatch
脚本中我包含了 #SBATCH --cpus-per-task=1
。出于同样的原因,我怀疑您可以在 srun
命令中使用 --mem
而不是 --mem-per-cpu
,但我还没有测试过此配置。