在 运行 PBS 中的 tensorflow 作业之前,我需要检查哪些关键功能?
What are the key features I need to check before running a tensorflow job in PBS?
我正在尝试 运行 在 PBS 中进行深度学习工作(在 Tensorflow 中开发),但 1 周后我收到错误消息 PBS: job killed: walltime 691231 exceeded limit 691200
。我是 PBS 工作的新手,因此我想知道我应该更改哪些关键参数才能成功完成工作。我有大约 800k 数据补丁。我保持批量大小 32 和学习率 3e-2。我系统的当前配置
node - we have 12, ppn - absolute max is 32
我的 .PBS 文件 ppn-4 的当前设置。我想我需要增加 ppn 的数量。为了获得更好的性能,我还需要更改其他关键点吗?
You can increase the walltime by adding it in bash script before
running in qsub mode as shown below:
# PBS -l walltime=24:00:00
我们可以使用以下格式设置 PBS wall time。在您的情况下,默认情况下是 8 天(192 小时),因此工作在 192 小时后被终止。
walltime 采用 hh:mm:ss 格式。
#PBS -l walltime=192:00:00
下面是检查配置的最大挂墙时间的命令。基于 "resources_max.walltime" ,您可以在脚本中设置值。
$ qmgr -c "list queue batch"
队列批次
resources_max.nodes = 16
**resources_max.walltime = 24:00:00**
----
谢谢,
Rajeswari Ponnuru.
我正在尝试 运行 在 PBS 中进行深度学习工作(在 Tensorflow 中开发),但 1 周后我收到错误消息 PBS: job killed: walltime 691231 exceeded limit 691200
。我是 PBS 工作的新手,因此我想知道我应该更改哪些关键参数才能成功完成工作。我有大约 800k 数据补丁。我保持批量大小 32 和学习率 3e-2。我系统的当前配置
node - we have 12, ppn - absolute max is 32
我的 .PBS 文件 ppn-4 的当前设置。我想我需要增加 ppn 的数量。为了获得更好的性能,我还需要更改其他关键点吗?
You can increase the walltime by adding it in bash script before running in qsub mode as shown below:
# PBS -l walltime=24:00:00
我们可以使用以下格式设置 PBS wall time。在您的情况下,默认情况下是 8 天(192 小时),因此工作在 192 小时后被终止。
walltime 采用 hh:mm:ss 格式。
#PBS -l walltime=192:00:00
下面是检查配置的最大挂墙时间的命令。基于 "resources_max.walltime" ,您可以在脚本中设置值。
$ qmgr -c "list queue batch"
队列批次
resources_max.nodes = 16
**resources_max.walltime = 24:00:00**
----
谢谢, Rajeswari Ponnuru.