运行 多个工作守护进程 SLURM

Running multiple worker daemons SLURM

我想 运行 单台机器上的多个工作守护进程。根据 damienfrancois's answer on what is the minimum number of computers for a slurm cluster 可以做到。问题是目前我只能在一台机器上执行 1 个工作守护进程。例如

当我运行

sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv

linux1 在我 运行 linux2 时宕机。是否可以在一台机器上 运行 多个工作守护进程? 这是我的 slurm.conf 文件

由于您的意图似乎只是测试 Slurm 的行为,我建议您使用 前端模式,您可以在其中创建虚拟计算节点机.

在他们的 FAQ 中,您有更多详细信息,但基本上您必须配置安装以使用此模式:

./configure --enable-front-end  

并配置slurm.conf

中的节点
NodeName=test[1-100] NodeHostName=localhost

在那篇指南中,他们还解释了如何通过更改端口在同一节点中启动多个真正的守护进程,但出于我的测试目的,这不是必需的。

祝你好运!

我遇到了和你一样的问题,我通过修改那里提到的日志文件的路径解决了它 multiple slurmd support。 例如在你的slurm.conf中

SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd

必须

SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n

现在您可以启动多个 slurmd。

注意:我试过你的 slurm conf,我认为缺少一些参数,比如定义两个 NodeName 而不是一个,并添加每个节点使用的端口。 这对我有用

# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1  Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11  Default=YES MaxTime=INFINITE State=UP