slurm:如何防止工作信息被删除?
slurm: How can I prevent job's information to be removed?
使用 sacct
我想获取有关我完成的工作的信息。
提到我们如何获取职位信息。
我提交了一个职位名称jobName.sh
,jobID为176。12小时后,新的200个职位进来了,我想查看我的职位(jobID=176)信息,我得到slurm_load_jobs error: Invalid job id specified
.
scontrol show job 176
slurm_load_jobs error: Invalid job id specified
下面的行 returns 什么都没有:sacct --name jobName.sh
我假设有一个时间限制来保留以前提交的工作信息,以前的工作信息不知何故已被删除。有限制吗?我怎样才能使该限制值非常大以防止它们被删除?
请注意 JobRequeue=0
在 slurm.conf。
假设您正在使用 mySQL 存储该数据,在您的数据库配置文件 slurmdbd.conf 中,您可以调整清除等时间。这里有一些例子:
PurgeJobAfter=12hours
PurgeJobAfter=1month
PurgeJobAfter=24months
如果未设置(默认),则永远不会清除作业记录。
更多info.
在 Slurm documentation 上提到:
MinJobAge The minimum age of a completed job before its record is
purged from Slurm's active database. Set the values of MaxJobCount and
to ensure the slurmctld daemon does not exhaust its memory or other
resources. The default value is 300 seconds. A value of zero prevents
any job record purging. In order to eliminate some possible race
conditions, the minimum non-zero value for MinJobAge recommended is 2.
在我的 slurm.conf
文件中,MinJobAge
是 300,即 5 分钟。这就是为什么在 5 分钟后每个已完成的作业的信息都被删除的原因。我增加了 MinJobAge
的值以防止删除操作。
使用 sacct
我想获取有关我完成的工作的信息。
我提交了一个职位名称jobName.sh
,jobID为176。12小时后,新的200个职位进来了,我想查看我的职位(jobID=176)信息,我得到slurm_load_jobs error: Invalid job id specified
.
scontrol show job 176
slurm_load_jobs error: Invalid job id specified
下面的行 returns 什么都没有:sacct --name jobName.sh
我假设有一个时间限制来保留以前提交的工作信息,以前的工作信息不知何故已被删除。有限制吗?我怎样才能使该限制值非常大以防止它们被删除?
请注意 JobRequeue=0
在 slurm.conf。
假设您正在使用 mySQL 存储该数据,在您的数据库配置文件 slurmdbd.conf 中,您可以调整清除等时间。这里有一些例子:
PurgeJobAfter=12hours
PurgeJobAfter=1month
PurgeJobAfter=24months
如果未设置(默认),则永远不会清除作业记录。
更多info.
在 Slurm documentation 上提到:
MinJobAge The minimum age of a completed job before its record is purged from Slurm's active database. Set the values of MaxJobCount and to ensure the slurmctld daemon does not exhaust its memory or other resources. The default value is 300 seconds. A value of zero prevents any job record purging. In order to eliminate some possible race conditions, the minimum non-zero value for MinJobAge recommended is 2.
在我的 slurm.conf
文件中,MinJobAge
是 300,即 5 分钟。这就是为什么在 5 分钟后每个已完成的作业的信息都被删除的原因。我增加了 MinJobAge
的值以防止删除操作。