在 运行 PBS 中的 tensorflow 作业之前,我需要检查哪些关键功能?

What are the key features I need to check before running a tensorflow job in PBS?

我正在尝试 运行 在 PBS 中进行深度学习工作(在 Tensorflow 中开发),但 1 周后我收到错误消息 PBS: job killed: walltime 691231 exceeded limit 691200。我是 PBS 工作的新手,因此我想知道我应该更改哪些关键参数才能成功完成工作。我有大约 800k 数据补丁。我保持批量大小 32 和学习率 3e-2。我系统的当前配置

node - we have 12, ppn - absolute max is 32

我的 .PBS 文件 ppn-4 的当前设置。我想我需要增加 ppn 的数量。为了获得更好的性能,我还需要更改其他关键点吗?

You can increase the walltime by adding it in bash script before running in qsub mode as shown below:

# PBS -l walltime=24:00:00 

我们可以使用以下格式设置 PBS wall time。在您的情况下,默认情况下是 8 天(192 小时),因此工作在 192 小时后被终止。

walltime 采用 hh:mm:ss 格式。

#PBS -l walltime=192:00:00

下面是检查配置的最大挂墙时间的命令。基于 "resources_max.walltime" ,您可以在脚本中设置值。

$ qmgr -c "list queue batch"

队列批次

    resources_max.nodes = 16

   **resources_max.walltime = 24:00:00**
    ----

谢谢, Rajeswari Ponnuru.