SLURM:分配所有 GPU 后,无法再提交 cpu 作业

SLURM: After allocating all GPUs no more cpu job can be submitted

我们刚刚开始使用 slurm 来管理我们的 GPU(目前只有 2 个)。我们使用 ubuntu 14.04 和 slurm-llnl。我已经配置 gres.conf 和 srun 工作。 问题是,如果我 运行 有两个 --gres=gpu:1 的作业,那么两个 GPU 就会成功分配并且作业开始 运行ning;现在我希望能够在没有 --gres=gpu:1 的情况下 运行 更多作业(除了 2 个 GPU 作业之外)(即作业比仅使用 CPU 和 ram)但这是不可能的。

错误消息说它无法分配所需的资源(即使有 24 CPU 个核心)。

这是我的 gres.conf:

Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]

感谢您的帮助。谢谢。

确保配置中的 SelectTypeCR_CPUCR_Core 并且分区的 shared 选项未设置为 exclusive。否则 Slurm 将完整节点分配给作业。