由于时间限制,作业意外取消
Job unexpectedly cancelled due to time limit
我工作的集群上有几个分区。使用 sinfo
我可以看到每个分区的时间限制。我将我的代码用于 mid1
分区,该分区的时间限制为 8-00:00:00
,据我了解时间限制为 8 天。我不得不等待 1-15:23:41
,这意味着将近 1 天 15 小时。但是,我的代码 运行 仅 00:02:24
这意味着将近 2.5 分钟(解决方案正在收敛)。另外,我没有在 sbatch
提交的文件中设置时间限制我的代码停止的原因是:
JOB 3216125 CANCELLED AT 2015-12-19T04:22:04 DUE TO TIME LIMIT
那么,为什么我没有超过时间限制就停止了我的代码?我问过负责集群的人,但他们没有 return。
查看 scontrol show partitions
输出中 DefaultTime
的值。如果您没有使用 --time
自行指定,这是分配给您的工作的最长时间。
很可能这个值设置为 2 分钟以强制您指定一个合理的时间限制(在分区的限制内)。
我工作的集群上有几个分区。使用 sinfo
我可以看到每个分区的时间限制。我将我的代码用于 mid1
分区,该分区的时间限制为 8-00:00:00
,据我了解时间限制为 8 天。我不得不等待 1-15:23:41
,这意味着将近 1 天 15 小时。但是,我的代码 运行 仅 00:02:24
这意味着将近 2.5 分钟(解决方案正在收敛)。另外,我没有在 sbatch
提交的文件中设置时间限制我的代码停止的原因是:
JOB 3216125 CANCELLED AT 2015-12-19T04:22:04 DUE TO TIME LIMIT
那么,为什么我没有超过时间限制就停止了我的代码?我问过负责集群的人,但他们没有 return。
查看 scontrol show partitions
输出中 DefaultTime
的值。如果您没有使用 --time
自行指定,这是分配给您的工作的最长时间。
很可能这个值设置为 2 分钟以强制您指定一个合理的时间限制(在分区的限制内)。