slurm:无法使用 scontrol 获取工作信息
slurm: unable to get job's information using scontrol
当我运行 执行以下命令时,我能够看到一堆 slurm 作业。既然我能看到他们,我认为他们的日志应该被保存。
$ sacct --format="JobID,JobName%30"
JobID JobName
------------ ------------------------------
3 19kuX6ge4WzE2cyRtAUozP1SSE9HR+
3.batch batch
4 19kuX6ge4WzE2cyRtAUozP1SSE9HR+
4.batch batch
5 19kuX6ge4WzE2cyRtAUozP1SSE9HR+
5.batch batch
9.batch batch
2 run.sh
2.batch batch
$ sacct --jobs=4
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
4 19kuX6ge4+ debug alper 1 COMPLETED 0:0
4.batch batch alper 1 COMPLETED 0:0
之后,当我执行以下操作时:scontrol show job <job_id>
,我将无法 return 完整的作业信息。
$ scontrol show job 4
slurm_load_jobs error: Invalid job id specified
这可能是什么原因?有没有其他方法可以获取作业的信息,例如 RunTime
.
scontrol
仅显示有关当前 运行 或最近完成的作业的信息。 “最近完成”时间取决于安装,但默认为 5 分钟(我认为)。 sacct
returns 来自会计数据库的信息,因此适用于所有工作。
当我运行 执行以下命令时,我能够看到一堆 slurm 作业。既然我能看到他们,我认为他们的日志应该被保存。
$ sacct --format="JobID,JobName%30"
JobID JobName
------------ ------------------------------
3 19kuX6ge4WzE2cyRtAUozP1SSE9HR+
3.batch batch
4 19kuX6ge4WzE2cyRtAUozP1SSE9HR+
4.batch batch
5 19kuX6ge4WzE2cyRtAUozP1SSE9HR+
5.batch batch
9.batch batch
2 run.sh
2.batch batch
$ sacct --jobs=4
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
4 19kuX6ge4+ debug alper 1 COMPLETED 0:0
4.batch batch alper 1 COMPLETED 0:0
之后,当我执行以下操作时:scontrol show job <job_id>
,我将无法 return 完整的作业信息。
$ scontrol show job 4
slurm_load_jobs error: Invalid job id specified
这可能是什么原因?有没有其他方法可以获取作业的信息,例如 RunTime
.
scontrol
仅显示有关当前 运行 或最近完成的作业的信息。 “最近完成”时间取决于安装,但默认为 5 分钟(我认为)。 sacct
returns 来自会计数据库的信息,因此适用于所有工作。