如何使用同一个 GPU 设备在 SLURM 中定义多个 gres 资源?

How to define multiple gres resources in SLURM using the same GPU device?

我正在 运行宁宁机器学习 (ML) 工作,使用非常少的 GPU 内存。 因此,我可以在单个 GPU 上 运行 多个 ML 作业。

为此,我想在 gres.conf 文件中添加多行来指定同一设备。 但是,slurm deamon 似乎不接受这个,服务返回:

fatal: Gres GPU plugin failed to load configuration

我是否缺少任何选项来完成这项工作?

或者使用 SLURM 实现这一目标的不同方法?

它有点像这个,但是这个似乎特定于某些启用了编译的 CUDA 代码。这似乎比我的一般情况更具体(或者至少据我所知)。

我认为您不能超额订阅 GPU,所以我看到两个选项:

  1. 您可以配置 CUDA Multi-Process Service
  2. 将多个计算打包到一个作业中,该作业具有一个 GPU 并且运行它们是并行的。

除了@Marcus Boden 提到的nVidia MPS 是针对V100 显卡的,还有Multi-Instance GPU 是针对A100 显卡的