SLURM:如何限制 CPU 作业数以避免浪费 GPU 资源
SLRUM: how to limit CPU job count due to avoid wasting of GPU resource
我们正在使用 SLRUM 在节点之间共享 CPU 和 GPU 资源。
有时无法提交 GPU 作业,因为有人提交了 CPU 个作业。
那样的话,就浪费了GPU资源。
如何制定策略来避免这种冲突?
例如,是否可以限制节点上 GPU 作业的最大 CPU 作业数?
(节点资源:48 CPU 个核心,4 个 GPU 卡,--> 限制 CPU 作业最多 44 个以保留 4 个 GPU 作业。)
有时用于执行此操作的配置是有两个(重叠的)分区,一个包含所有节点(CPU 分区),另一个仅包含 GPU 节点(GPU 分区) .
然后将 CPU 分区的 MaxCPUsPerNode
设置为 44,将 GPU 分区设置为 4。
然后,GPU 作业必须提交到 GPU 分区,而 CPU 只有作业提交到 CPU 分区(可以是默认分区)。这可以通过“资源限制”或“作业提交”插件来强制执行
我们正在使用 SLRUM 在节点之间共享 CPU 和 GPU 资源。 有时无法提交 GPU 作业,因为有人提交了 CPU 个作业。 那样的话,就浪费了GPU资源。
如何制定策略来避免这种冲突?
例如,是否可以限制节点上 GPU 作业的最大 CPU 作业数?
(节点资源:48 CPU 个核心,4 个 GPU 卡,--> 限制 CPU 作业最多 44 个以保留 4 个 GPU 作业。)
有时用于执行此操作的配置是有两个(重叠的)分区,一个包含所有节点(CPU 分区),另一个仅包含 GPU 节点(GPU 分区) .
然后将 CPU 分区的 MaxCPUsPerNode
设置为 44,将 GPU 分区设置为 4。
然后,GPU 作业必须提交到 GPU 分区,而 CPU 只有作业提交到 CPU 分区(可以是默认分区)。这可以通过“资源限制”或“作业提交”插件来强制执行