如何使用同一个 GPU 设备在 SLURM 中定义多个 gres 资源？

Question

我正在运行宁宁机器学习 (ML) 工作，使用非常少的 GPU 内存。因此，我可以在单个 GPU 上运行多个 ML 作业。

为此，我想在 gres.conf 文件中添加多行来指定同一设备。但是，slurm deamon 似乎不接受这个，服务返回：

fatal: Gres GPU plugin failed to load configuration

我是否缺少任何选项来完成这项工作？

或者使用 SLURM 实现这一目标的不同方法？

它有点像这个，但是这个似乎特定于某些启用了编译的 CUDA 代码。这似乎比我的一般情况更具体（或者至少据我所知）。

Answer 1

我认为您不能超额订阅 GPU，所以我看到两个选项：

Answer 2

除了@Marcus Boden 提到的nVidia MPS 是针对V100 显卡的，还有Multi-Instance GPU 是针对A100 显卡的

How to define multiple gres resources in SLURM using the same GPU device?