SLURM：如何限制 CPU 作业数以避免浪费 GPU 资源

SLRUM: how to limit CPU job count due to avoid wasting of GPU resource

我们正在使用 SLRUM 在节点之间共享 CPU 和 GPU 资源。有时无法提交 GPU 作业，因为有人提交了 CPU 个作业。那样的话，就浪费了GPU资源。

如何制定策略来避免这种冲突？

例如，是否可以限制节点上 GPU 作业的最大 CPU 作业数？

（节点资源：48 CPU 个核心，4 个 GPU 卡，--> 限制 CPU 作业最多 44 个以保留 4 个 GPU 作业。）

有时用于执行此操作的配置是有两个（重叠的）分区，一个包含所有节点（CPU 分区），另一个仅包含 GPU 节点（GPU 分区） .

然后将 CPU 分区的 MaxCPUsPerNode 设置为 44，将 GPU 分区设置为 4。

然后，GPU 作业必须提交到 GPU 分区，而 CPU 只有作业提交到 CPU 分区（可以是默认分区）。这可以通过“资源限制”或“作业提交”插件来强制执行