SLURM:分配所有 GPU 后,无法再提交 cpu 作业
SLURM: After allocating all GPUs no more cpu job can be submitted
我们刚刚开始使用 slurm 来管理我们的 GPU(目前只有 2 个)。我们使用 ubuntu 14.04 和 slurm-llnl。我已经配置 gres.conf 和 srun
工作。
问题是,如果我 运行 有两个 --gres=gpu:1
的作业,那么两个 GPU 就会成功分配并且作业开始 运行ning;现在我希望能够在没有 --gres=gpu:1
的情况下 运行 更多作业(除了 2 个 GPU 作业之外)(即作业比仅使用 CPU 和 ram)但这是不可能的。
错误消息说它无法分配所需的资源(即使有 24 CPU 个核心)。
这是我的 gres.conf:
Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]
感谢您的帮助。谢谢。
确保配置中的 SelectType
是 CR_CPU
或 CR_Core
并且分区的 shared
选项未设置为 exclusive
。否则 Slurm 将完整节点分配给作业。
我们刚刚开始使用 slurm 来管理我们的 GPU(目前只有 2 个)。我们使用 ubuntu 14.04 和 slurm-llnl。我已经配置 gres.conf 和 srun
工作。
问题是,如果我 运行 有两个 --gres=gpu:1
的作业,那么两个 GPU 就会成功分配并且作业开始 运行ning;现在我希望能够在没有 --gres=gpu:1
的情况下 运行 更多作业(除了 2 个 GPU 作业之外)(即作业比仅使用 CPU 和 ram)但这是不可能的。
错误消息说它无法分配所需的资源(即使有 24 CPU 个核心)。
这是我的 gres.conf:
Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]
感谢您的帮助。谢谢。
确保配置中的 SelectType
是 CR_CPU
或 CR_Core
并且分区的 shared
选项未设置为 exclusive
。否则 Slurm 将完整节点分配给作业。