sbatch 将计算节点发送到 'drained' 状态
sbatch sends compute node to 'drained' status
在我们小型集群中新安装和配置的计算节点上,我无法使用批处理脚本和 'sbatch' 命令提交 slurm 作业。提交后,请求节点变为'drained'状态。但是,我可以使用 'srun'.
以交互方式 运行 相同的命令
作品:
srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo 'test'
无效:
sbatch test.slurm
test.slurm
:
#!/bin/sh
#SBATCH --job-name=test
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --nodelist=node6
#SBATCH --partition=debug
echo 'test'
它给了我:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug up 1:00:00 1 drain node6
我必须恢复节点。
所有节点运行 Debian 9.8,使用Infiniband和NIS。
我确保所有节点都具有相同的配置、包版本和守护进程 运行ning。所以,我看不出我错过了什么。
问题似乎与当前的 NIS 有关。只需要在 /etc/passwd 这一行的末尾添加:
+::::::
并在节点上重启 slurmd:
/etc/init.d/slurmd restart
在我们小型集群中新安装和配置的计算节点上,我无法使用批处理脚本和 'sbatch' 命令提交 slurm 作业。提交后,请求节点变为'drained'状态。但是,我可以使用 'srun'.
以交互方式 运行 相同的命令作品:
srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo 'test'
无效:
sbatch test.slurm
test.slurm
:
#!/bin/sh
#SBATCH --job-name=test
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --nodelist=node6
#SBATCH --partition=debug
echo 'test'
它给了我:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug up 1:00:00 1 drain node6
我必须恢复节点。
所有节点运行 Debian 9.8,使用Infiniband和NIS。 我确保所有节点都具有相同的配置、包版本和守护进程 运行ning。所以,我看不出我错过了什么。
问题似乎与当前的 NIS 有关。只需要在 /etc/passwd 这一行的末尾添加:
+::::::
并在节点上重启 slurmd:
/etc/init.d/slurmd restart