Slurm 作业已排队但未排队 运行
Slurm jobs queued but not running
我正在尝试在 Virtualbox 运行ning Ubuntu 上安装 slurm。我们使用它通过 Web 界面 运行 long-运行ning 作业,我们使用 slurm 对作业进行排队和 运行。我正在使用 VirtualBox 创建一个用于开发的沙箱。
我已经设置了 slurm,但是当我排队作业并 运行 排队时,我得到:
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2 debug test.sh pchandle PD 0:00 1 (Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)
当我 运行 它在我的实际硬件上时,作业 运行 成功。
sinfo 的输出是:
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 0 n/a
是的,它说节点是 0,但我的实际硬件上的输出是相同的,作业 运行 很好。关于为什么说 0 个节点有什么建议吗?
这是我的设置问题,还是由于硬件限制根本不可能 运行 在 VirtualBox 上发出 slurm?我 运行 有 4 个 CPU。我能看到的唯一明显区别是每个内核的线程只有 1 个(我的本地硬件上有 2 个)。
有没有办法调试为什么节点没有 运行ning 作业?或者为什么没有可用的节点?[=13=]
原来是配置错误
在配置文件 /etc/slurm-llnl/slurm.conf 中,我将配置 NodeName 保留为默认的 NodeName=localhost[0-31]。由于我 运行 在单个主机上,因此应该为同一台机器上的单个节点将其设置为 NodeName=localhost。
Slurm Single Instance 描述了应该设置的值,这帮助我找到了答案。
Install Slurm on a stand alone Ubuntu 有我最初遵循的说明。
我正在尝试在 Virtualbox 运行ning Ubuntu 上安装 slurm。我们使用它通过 Web 界面 运行 long-运行ning 作业,我们使用 slurm 对作业进行排队和 运行。我正在使用 VirtualBox 创建一个用于开发的沙箱。
我已经设置了 slurm,但是当我排队作业并 运行 排队时,我得到:
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2 debug test.sh pchandle PD 0:00 1 (Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)
当我 运行 它在我的实际硬件上时,作业 运行 成功。
sinfo 的输出是:
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 0 n/a
是的,它说节点是 0,但我的实际硬件上的输出是相同的,作业 运行 很好。关于为什么说 0 个节点有什么建议吗?
这是我的设置问题,还是由于硬件限制根本不可能 运行 在 VirtualBox 上发出 slurm?我 运行 有 4 个 CPU。我能看到的唯一明显区别是每个内核的线程只有 1 个(我的本地硬件上有 2 个)。
有没有办法调试为什么节点没有 运行ning 作业?或者为什么没有可用的节点?[=13=]
原来是配置错误
在配置文件 /etc/slurm-llnl/slurm.conf 中,我将配置 NodeName 保留为默认的 NodeName=localhost[0-31]。由于我 运行 在单个主机上,因此应该为同一台机器上的单个节点将其设置为 NodeName=localhost。
Slurm Single Instance 描述了应该设置的值,这帮助我找到了答案。
Install Slurm on a stand alone Ubuntu 有我最初遵循的说明。