SLURM:查看每个节点有多少个内核,以及每个作业有多少个内核
SLURM: see how many cores per node, and how many cores per job
我已经搜索 google 并阅读了文档。
我的本地集群正在使用 SLURM。我想检查以下内容:
每个节点有多少个核心?
队列中的每个作业保留了多少个核心?
如有任何建议,我们将不胜感激!
为了查看您可以使用的所有节点的详细信息:
scontrol show node
对于特定节点:
scontrol show node "nodename"
对于作业的核心可以使用格式标记%C,例如:
squeue -o"%.7i %.9P %.8j %.8u %.2t %.10M %.6D %C"
关于格式的更多info。
您可以使用 sinfo
命令获取有关集群中节点的大部分信息,例如:
sinfo --Node --long
您将获得有关 a.o. 分区、节点状态、套接字数量、内核、线程、内存、磁盘和功能的精简信息。它比 scontrol show nodes
的输出更容易阅读。
至于每个作业的 CPU 数量,请参阅@Sergio Iserte 的回答。
参见联机帮助页 here。
以@damienfrancois 的回答为基础:
我发现 sinfo
最有用,但命令参数应该不同。如果您只想知道每个节点的内核数、每个节点的内存数、可用性以及每个节点可用的数量,只需执行以下操作。
快速节点状态:
sinfo -o "%n %e %m %a %c %C"
输出如下:
HOSTNAMES FREE_MEM MEMORY AVAIL CPUS CPUS(A/I/O/T)
m-4-06 301585 950000 up 96 88/8/0/96
m-4-07 654944 950000 up 72 71/1/0/72
m-4-09 628696 950000 up 72 49/23/0/72
c-0-02 36741 115000 up 24 24/0/0/24
c-0-03 47512 115000 up 24 24/0/0/24
m-2-01 699025 950000 up 72 72/0/0/72
HOSTNAMES
告诉你集群的节点,如果你想提交到一个你可以说你想使用的特定节点。
FREE_MEM
告诉您该节点有多少可用内存(以 MB 为单位)。
MEMORY
告诉您该节点在未使用时默认有多少内存,以 MB 为单位。
AVAIL
告诉您该节点是否已启动(如果您遇到问题)。
CPUS
告诉您该节点上的 cpu 总数,假设它未被使用。
CPUS(A/I/O/T)
告诉你 allocated/idle/other/total cpu 的数量。分配的 cpu 是不可用的核心,当前正在作业中使用。空闲的 cpus 可以立即使用,其他意味着它们可能已关闭或处于某种不同的中期 运行 状态,total 只是重申 cpus 的总数。
有关此命令的输出以及如何格式化的更多详细信息,请参见 here。
我已经搜索 google 并阅读了文档。
我的本地集群正在使用 SLURM。我想检查以下内容: 每个节点有多少个核心? 队列中的每个作业保留了多少个核心?
如有任何建议,我们将不胜感激!
为了查看您可以使用的所有节点的详细信息:
scontrol show node
对于特定节点:
scontrol show node "nodename"
对于作业的核心可以使用格式标记%C,例如:
squeue -o"%.7i %.9P %.8j %.8u %.2t %.10M %.6D %C"
关于格式的更多info。
您可以使用 sinfo
命令获取有关集群中节点的大部分信息,例如:
sinfo --Node --long
您将获得有关 a.o. 分区、节点状态、套接字数量、内核、线程、内存、磁盘和功能的精简信息。它比 scontrol show nodes
的输出更容易阅读。
至于每个作业的 CPU 数量,请参阅@Sergio Iserte 的回答。
参见联机帮助页 here。
以@damienfrancois 的回答为基础:
我发现 sinfo
最有用,但命令参数应该不同。如果您只想知道每个节点的内核数、每个节点的内存数、可用性以及每个节点可用的数量,只需执行以下操作。
快速节点状态:
sinfo -o "%n %e %m %a %c %C"
输出如下:
HOSTNAMES FREE_MEM MEMORY AVAIL CPUS CPUS(A/I/O/T)
m-4-06 301585 950000 up 96 88/8/0/96
m-4-07 654944 950000 up 72 71/1/0/72
m-4-09 628696 950000 up 72 49/23/0/72
c-0-02 36741 115000 up 24 24/0/0/24
c-0-03 47512 115000 up 24 24/0/0/24
m-2-01 699025 950000 up 72 72/0/0/72
HOSTNAMES
告诉你集群的节点,如果你想提交到一个你可以说你想使用的特定节点。
FREE_MEM
告诉您该节点有多少可用内存(以 MB 为单位)。
MEMORY
告诉您该节点在未使用时默认有多少内存,以 MB 为单位。
AVAIL
告诉您该节点是否已启动(如果您遇到问题)。
CPUS
告诉您该节点上的 cpu 总数,假设它未被使用。
CPUS(A/I/O/T)
告诉你 allocated/idle/other/total cpu 的数量。分配的 cpu 是不可用的核心,当前正在作业中使用。空闲的 cpus 可以立即使用,其他意味着它们可能已关闭或处于某种不同的中期 运行 状态,total 只是重申 cpus 的总数。
有关此命令的输出以及如何格式化的更多详细信息,请参见 here。