slurm sbatch 排队任务但没有执行
slurm sbatch queues tasks but nothing executes
我在 AWS 集群上使用 slurm 并编写了一个似乎无法运行的执行脚本。如果我 运行 脚本本身,它 运行 没问题。但是,当 运行 和 sbatch
时,它不起作用。
我用以下代码调用 sbatch
:
for sample in `cat url.txt`;
do sudo /opt/slurm/bin/sbatch ./slurm_script.sh $sample;
sleep 1;
done
脚本slurm_script.sh
包含很长的生物信息学管道。它在单独调用时确实有效 [bash slurm_script.sh someString
]
它输出到主节点:
Submitted batch job 2
Submitted batch job 3
Submitted batch job 4
Submitted batch job 5
...
但是当我 ssh 进入任何计算节点时,没有进程 运行ning。也没有创建文件。有什么想法吗?
我花了一些时间才弄清楚这个问题,但是在 运行 脚本之前,slurm 的错误和输出目录没有在正确的文件夹中创建。我在 ~/slurm_out 和 ~/slurm_error 中创建了这些目录。但是,在 运行 之后根据@Poshi
建议进行以下操作
scontrol show job
我看到 slurm 在以下目录中寻找这些:
...
WorkDir=/scratch/missing
StdErr=/scratch/missing/slurm_error/error_85.txt
StdIn=/dev/null
StdOut=/scratch/missing/slurm_out/output_85.txt
Power=
...
在 slurm 查找的目录中创建 slurm_error
和 slurm_out
后,脚本开始 运行!
我在 AWS 集群上使用 slurm 并编写了一个似乎无法运行的执行脚本。如果我 运行 脚本本身,它 运行 没问题。但是,当 运行 和 sbatch
时,它不起作用。
我用以下代码调用 sbatch
:
for sample in `cat url.txt`;
do sudo /opt/slurm/bin/sbatch ./slurm_script.sh $sample;
sleep 1;
done
脚本slurm_script.sh
包含很长的生物信息学管道。它在单独调用时确实有效 [bash slurm_script.sh someString
]
它输出到主节点:
Submitted batch job 2
Submitted batch job 3
Submitted batch job 4
Submitted batch job 5
...
但是当我 ssh 进入任何计算节点时,没有进程 运行ning。也没有创建文件。有什么想法吗?
我花了一些时间才弄清楚这个问题,但是在 运行 脚本之前,slurm 的错误和输出目录没有在正确的文件夹中创建。我在 ~/slurm_out 和 ~/slurm_error 中创建了这些目录。但是,在 运行 之后根据@Poshi
建议进行以下操作scontrol show job
我看到 slurm 在以下目录中寻找这些:
...
WorkDir=/scratch/missing
StdErr=/scratch/missing/slurm_error/error_85.txt
StdIn=/dev/null
StdOut=/scratch/missing/slurm_out/output_85.txt
Power=
...
在 slurm 查找的目录中创建 slurm_error
和 slurm_out
后,脚本开始 运行!