如何使用同一个 GPU 设备在 SLURM 中定义多个 gres 资源?
How to define multiple gres resources in SLURM using the same GPU device?
我正在 运行宁宁机器学习 (ML) 工作,使用非常少的 GPU 内存。
因此,我可以在单个 GPU 上 运行 多个 ML 作业。
为此,我想在 gres.conf 文件中添加多行来指定同一设备。
但是,slurm deamon 似乎不接受这个,服务返回:
fatal: Gres GPU plugin failed to load configuration
我是否缺少任何选项来完成这项工作?
或者使用 SLURM 实现这一目标的不同方法?
它有点像这个,但是这个似乎特定于某些启用了编译的 CUDA 代码。这似乎比我的一般情况更具体(或者至少据我所知)。
我认为您不能超额订阅 GPU,所以我看到两个选项:
- 您可以配置 CUDA Multi-Process Service 或
- 将多个计算打包到一个作业中,该作业具有一个 GPU 并且运行它们是并行的。
除了@Marcus Boden 提到的nVidia MPS 是针对V100 显卡的,还有Multi-Instance GPU 是针对A100 显卡的
我正在 运行宁宁机器学习 (ML) 工作,使用非常少的 GPU 内存。 因此,我可以在单个 GPU 上 运行 多个 ML 作业。
为此,我想在 gres.conf 文件中添加多行来指定同一设备。 但是,slurm deamon 似乎不接受这个,服务返回:
fatal: Gres GPU plugin failed to load configuration
我是否缺少任何选项来完成这项工作?
或者使用 SLURM 实现这一目标的不同方法?
它有点像这个,但是这个似乎特定于某些启用了编译的 CUDA 代码。这似乎比我的一般情况更具体(或者至少据我所知)。
我认为您不能超额订阅 GPU,所以我看到两个选项:
- 您可以配置 CUDA Multi-Process Service 或
- 将多个计算打包到一个作业中,该作业具有一个 GPU 并且运行它们是并行的。
除了@Marcus Boden 提到的nVidia MPS 是针对V100 显卡的,还有Multi-Instance GPU 是针对A100 显卡的