SLURM：分配所有 GPU 后，无法再提交 cpu 作业

Question

我们刚刚开始使用 slurm 来管理我们的 GPU（目前只有 2 个）。我们使用 ubuntu 14.04 和 slurm-llnl。我已经配置 gres.conf 和 srun 工作。问题是，如果我运行有两个 --gres=gpu:1 的作业，那么两个 GPU 就会成功分配并且作业开始运行ning；现在我希望能够在没有 --gres=gpu:1 的情况下运行更多作业（除了 2 个 GPU 作业之外）（即作业比仅使用 CPU 和 ram）但这是不可能的。

错误消息说它无法分配所需的资源（即使有 24 CPU 个核心）。

这是我的 gres.conf:

Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]

感谢您的帮助。谢谢。

Answer 1

确保配置中的 SelectType 是 CR_CPU 或 CR_Core 并且分区的 shared 选项未设置为 exclusive。否则 Slurm 将完整节点分配给作业。

SLURM：分配所有 GPU 后，无法再提交 cpu 作业

SLURM: After allocating all GPUs no more cpu job can be submitted

linux

ubuntu

gpu

nvidia

slurm