Slurm 作业已排队但未排队 运行

Slurm jobs queued but not running

我正在尝试在 Virtualbox 运行ning Ubuntu 上安装 slurm。我们使用它通过 Web 界面 运行 long-运行ning 作业,我们使用 slurm 对作业进行排队和 运行。我正在使用 VirtualBox 创建一个用于开发的沙箱。

我已经设置了 slurm,但是当我排队作业并 运行 排队时,我得到:

$ squeue
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
                 2     debug  test.sh pchandle PD       0:00      1 (Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)

当我 运行 它在我的实际硬件上时,作业 运行 成功。

sinfo 的输出是:

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug*       up   infinite      0    n/a 

是的,它说节点是 0,但我的实际硬件上的输出是相同的,作业 运行 很好。关于为什么说 0 个节点有什么建议吗?

这是我的设置问题,还是由于硬件限制根本不可能 运行 在 VirtualBox 上发出 slurm?我 运行 有 4 个 CPU。我能看到的唯一明显区别是每个内核的线程只有 1 个(我的本地硬件上有 2 个)。

有没有办法调试为什么节点没有 运行ning 作业?或者为什么没有可用的节点?[​​=13=]

原来是配置错误

在配置文件 /etc/slurm-llnl/slurm.conf 中,我将配置 NodeName 保留为默认的 NodeName=localhost[0-31]。由于我 运行 在单个主机上,因此应该为同一台机器上的单个节点将其设置为 NodeName=localhost。

Slurm Single Instance 描述了应该设置的值,这帮助我找到了答案。

Install Slurm on a stand alone Ubuntu 有我最初遵循的说明。