sbatch: error: Batch job submission failed: Requested node configuration is not available
sbatch: error: Batch job submission failed: Requested node configuration is not available
问题与分配给作业的 CPU 的编号无关。在此问题之前,我遇到了 Nvidia 驱动程序配置错误,无法通过 'nvidia-smi' 检测到 GPU,在通过 运行ning 'NVIDIA-Linux-x86_64-410.79.run --no-drm' 解决该错误后,我遇到了这个错误。非常感谢任何帮助!
PS
在第一个问题之前,我可以运行顺利完成类似的工作
command: sbatch md.s
sbatch: error: Batch job submission failed: Requested node configuration is not available
command: 'sinfo -o "%g %.10R %.20l %.10c"'
GROUPS PARTITION TIMELIMIT CPUS
all gpucompute infinite 32
command:'sinfo -Nl'
Thu Sep 24 21:06:35 2020
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON
fwb-lab-tesla1 1 gpucompute* down* 32 32:1:1 64000 0 1 (null) Not responding
md.s
!/bin/bash
SBATCH --job-name=Seq1_md1
SBATCH --nodes=1
SBATCH --cpus-per-task=2
SBATCH --mem=3GB
SBATCH --mem-per-cpu=1gb
SBATCH --gres=gpu:Titan
SBATCH --mail-user=shirin.jamshidi@kcl.ac.uk
SBATCH --mail-type=ALL
module purge
module load amber/openmpi/intel/16.06
Navigate where data is
cd /home/SCRATCH/Seq1
mpirun -np 1 pmemd.cuda.MPI -O -i md1.in -o Seq1_md1.out -p Seq1.prmtop -c Seq1_min2.rst -r Seq1_md1.rst -x Seq1_md1.mdcrd -e Seq1_md1.mden -ref Seq1_min2.rst > md1.log
您的 sinfo
命令将节点报告为 down*
,这意味着它被 slurm 标记为关闭并且无法访问 slurmd。所以肯定是节点有问题,不能从用户端解决。
问题与分配给作业的 CPU 的编号无关。在此问题之前,我遇到了 Nvidia 驱动程序配置错误,无法通过 'nvidia-smi' 检测到 GPU,在通过 运行ning 'NVIDIA-Linux-x86_64-410.79.run --no-drm' 解决该错误后,我遇到了这个错误。非常感谢任何帮助!
PS 在第一个问题之前,我可以运行顺利完成类似的工作
command: sbatch md.s
sbatch: error: Batch job submission failed: Requested node configuration is not available
command: 'sinfo -o "%g %.10R %.20l %.10c"'
GROUPS PARTITION TIMELIMIT CPUS
all gpucompute infinite 32
command:'sinfo -Nl'
Thu Sep 24 21:06:35 2020
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON
fwb-lab-tesla1 1 gpucompute* down* 32 32:1:1 64000 0 1 (null) Not responding
md.s
!/bin/bash
SBATCH --job-name=Seq1_md1
SBATCH --nodes=1
SBATCH --cpus-per-task=2
SBATCH --mem=3GB
SBATCH --mem-per-cpu=1gb
SBATCH --gres=gpu:Titan
SBATCH --mail-user=shirin.jamshidi@kcl.ac.uk
SBATCH --mail-type=ALL
module purge
module load amber/openmpi/intel/16.06
Navigate where data is
cd /home/SCRATCH/Seq1
mpirun -np 1 pmemd.cuda.MPI -O -i md1.in -o Seq1_md1.out -p Seq1.prmtop -c Seq1_min2.rst -r Seq1_md1.rst -x Seq1_md1.mdcrd -e Seq1_md1.mden -ref Seq1_min2.rst > md1.log
您的 sinfo
命令将节点报告为 down*
,这意味着它被 slurm 标记为关闭并且无法访问 slurmd。所以肯定是节点有问题,不能从用户端解决。