有没有办法通过 slurm 计算出一个节点上有多少个 gpu?

Is there a way to figure out how many gpu's on a node via slurm?

我正在使用 SLURM 工作负载管理器,我们的节点有 4 个 GPU。

节点有几种可能的状态:

确定资源利用率的规范方法是 sinfo 命令 - https://slurm.schedmd.com/sinfo.html。有几个标志和选项。但是,似乎 none 可以判断给定节点上当时分配了多少资源。

说,我想知道,对于 mixed 状态,是否有 1,2 或 3 个 GPU 可用。或者此信息是机密的并且出于某种原因用户无法获得?

如果你运行

scontrol show nodes 

作为普通用户,您会看到很多关于节点的信息,其中看起来像

的那一行
 AllocTRES=cpu=8,mem=48G,gres/gpu=2

告诉您分配了多少 GPU:gres/gpu=2。另一行

 CfgTRES=cpu=64,mem=257707M,billing=64,gres/gpu=2 

表示配置了多​​少个 GPU:gres/gpu=2。通过这两行,您可以推断出节点上仍然可用的 GPU 数量。