slurm:无法使用 scontrol 获取工作信息

slurm: unable to get job's information using scontrol

当我运行 执行以下命令时,我能够看到一堆 slurm 作业。既然我能看到他们,我认为他们的日志应该被保存。

$ sacct --format="JobID,JobName%30"                          
       JobID                        JobName
------------ ------------------------------
3            19kuX6ge4WzE2cyRtAUozP1SSE9HR+
3.batch                               batch
4            19kuX6ge4WzE2cyRtAUozP1SSE9HR+
4.batch                               batch
5            19kuX6ge4WzE2cyRtAUozP1SSE9HR+
5.batch                               batch
9.batch                               batch
2                                    run.sh
2.batch                               batch

$ sacct --jobs=4                                             
       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
4            19kuX6ge4+      debug      alper          1  COMPLETED      0:0
4.batch           batch                 alper          1  COMPLETED      0:0

之后,当我执行以下操作时:scontrol show job <job_id>,我将无法 return 完整的作业信息。

$ scontrol show job 4                                       
slurm_load_jobs error: Invalid job id specified

这可能是什么原因?有没有其他方法可以获取作业的信息,例如 RunTime.

scontrol 仅显示有关当前 运行 或最近完成的作业的信息。 “最近完成”时间取决于安装,但默认为 5 分钟(我认为)。 sacct returns 来自会计数据库的信息,因此适用于所有工作。