有没有办法通过 slurm 计算出一个节点上有多少个 gpu?
Is there a way to figure out how many gpu's on a node via slurm?
我正在使用 SLURM
工作负载管理器,我们的节点有 4 个 GPU。
节点有几种可能的状态:
- allocated(所有计算资源都已分配)
- mixed(分配了部分资源)
- 闲置(分配了none的计算资源)
确定资源利用率的规范方法是 sinfo
命令 - https://slurm.schedmd.com/sinfo.html。有几个标志和选项。但是,似乎 none 可以判断给定节点上当时分配了多少资源。
说,我想知道,对于 mixed
状态,是否有 1,2 或 3 个 GPU 可用。或者此信息是机密的并且出于某种原因用户无法获得?
如果你运行
scontrol show nodes
作为普通用户,您会看到很多关于节点的信息,其中看起来像
的那一行
AllocTRES=cpu=8,mem=48G,gres/gpu=2
告诉您分配了多少 GPU:gres/gpu=2
。另一行
CfgTRES=cpu=64,mem=257707M,billing=64,gres/gpu=2
表示配置了多少个 GPU:gres/gpu=2
。通过这两行,您可以推断出节点上仍然可用的 GPU 数量。
我正在使用 SLURM
工作负载管理器,我们的节点有 4 个 GPU。
节点有几种可能的状态:
- allocated(所有计算资源都已分配)
- mixed(分配了部分资源)
- 闲置(分配了none的计算资源)
确定资源利用率的规范方法是 sinfo
命令 - https://slurm.schedmd.com/sinfo.html。有几个标志和选项。但是,似乎 none 可以判断给定节点上当时分配了多少资源。
说,我想知道,对于 mixed
状态,是否有 1,2 或 3 个 GPU 可用。或者此信息是机密的并且出于某种原因用户无法获得?
如果你运行
scontrol show nodes
作为普通用户,您会看到很多关于节点的信息,其中看起来像
的那一行 AllocTRES=cpu=8,mem=48G,gres/gpu=2
告诉您分配了多少 GPU:gres/gpu=2
。另一行
CfgTRES=cpu=64,mem=257707M,billing=64,gres/gpu=2
表示配置了多少个 GPU:gres/gpu=2
。通过这两行,您可以推断出节点上仍然可用的 GPU 数量。