sacct 报告相同作业的不同结果

sacct reports different results for the same job

I 运行 带有 -j 开关的 sacct,用于特定的作业 ID。根据其他命令行开关,同一作业会报告两个完全不同的结果。这是三个例子。第二个显示与其他两个不同的结果。

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO  -S 2020-07-26T00:00:00 -E 2020-07-27T23:59:59  --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401                        JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401         CANCELLED+  UNLIMITED 2020-07-26T20:45:31 2020-07-27T08:36:10   11:50:39                              1          2
1401.batch    COMPLETED            2020-07-26T20:45:31 2020-07-27T08:36:17   11:50:46    103856K    619812K        1          2

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO  -S 2020-07-26T00:00:00 -E 2020-07-26T23:59:59  --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401
       JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401          NODE_FAIL  UNLIMITED 2020-06-15T09:38:38 2020-07-26T00:17:26 40-14:38:48                              1          2

attar@lh> sacct -a -s CA,CD,F,NF,PR,TO    --format=JobId,state,time,start,end,elapsed,MaxRss,MaxVMSize,nnodes,ncpus -j 1401
       JobID      State  Timelimit               Start                 End    Elapsed     MaxRSS  MaxVMSize   NNodes      NCPUS
------------ ---------- ---------- ------------------- ------------------- ---------- ---------- ---------- -------- ----------
1401         CANCELLED+  UNLIMITED 2020-07-26T20:45:31 2020-07-27T08:36:10   11:50:39                              1          2
1401.batch    COMPLETED            2020-07-26T20:45:31 2020-07-27T08:36:17   11:50:46    103856K    619812K        1          2

为什么同一份工作的 start/end 时间不同?一个报告 11 小时 运行 时间,另一个报告 40 天 运行 时间!

非常感谢您的任何见解!

当两个作业具有相同的 JobId 时,通常会发生这种情况。 sacct documentation 表示:

If Slurm job ids are reset, some job numbers will probably appear more than once in the accounting log file but refer to different jobs. Such jobs can be distinguished by the "submit" time stamp in the data records.

尝试 运行 带有 --duplicates 选项的 sacct 命令。