获取 PBS 作业队列的描述

Getting description of a PBS job queue

是否有任何命令可以让我查询 运行/ 排队的 PBS 作业的描述以了解其属性,例如 RAM、处理器数量、GPU 等?

使用 qstat 命令:

qstat -f job_id

扩展 dimm 发布的答案。

如果一个作业在队列中注册,您可以使用qstat命令查询它的属性。如果作业已经完成,则只能从日志文件中grep相关信息。有一个方便的 tracejob 命令可以为你做 grepping。

在 PBS Pro 和 Torque 中,每个注册到队列的作业都有两组属性:

  • Resource_List 已为 运行 或排队作业
  • 请求资源
  • resources_used 包含 运行 作业的实际资源使用情况。

例如,在 PBS Pro 中,您可以获得 Resource_List

的以下属性
 Resource_List.mem = 2000mb
 Resource_List.mpiprocs = 8
 Resource_List.ncpus = 8
 Resource_List.nodect = 1
 Resource_List.place = free
 Resource_List.qlist = queue1
 Resource_List.select = 1:ncpus=8:mpiprocs=8
 Resource_List.walltime = 02:00:00

resources_used

的以下值
 resources_used.cpupercent = 800
 resources_used.cput = 00:03:31
 resources_used.mem = 529992kb
 resources_used.ncpus = 8
 resources_used.vmem = 3075580kb
 resources_used.walltime = 00:00:28

对于已完成的作业 tracejob 只能为您获取部分请求的资源:

 ncpus=8:mem=2048000kb

以及 resources_used

的最终值
 resources_used.cpupercent=799
 resources_used.cput=00:54:29
 resources_used.mem=725520kb 
 resources_used.ncpus=8
 resources_used.vmem=3211660kb
 resources_used.walltime=00:06:53