Tensorflow 和 运行 分布式扭矩训练

Tensorflow and running distributed training with torque

我写了一个符合tensorflow guide on distributed training的神经网络:https://www.tensorflow.org/deploy/distributed

如果我想要 运行 训练的集群使用扭矩进行作业调度和分配,这如何适应 tensorflow 以及它如何在集群上分配训练?

我是否将训练设置在扭矩的一个节点上,然后让 tensorflow 从那里分配它,或者这会与扭矩的功能发生冲突。如果 tensorflow 可以处理分布,甚至还需要扭矩吗?如何避免两者冲突?

提前致谢。

Torque和分布式tensorflow负责不同的任务,彼此没有直接关系。 Torque 用于将集群的资源分配给多个作业。在一项工作中,只有根据请求的资源可用。 分布式张量流用于在可用资源(在一个作业中)之间并行化张量流任务。

通常您会使用 torque 获取 tensorflow 任务所需的所有资源,然后使用分布式 tensorflow 将任务分配给 torque 提供的资源。

如果 tf.train.ClusterSpec 使用扭矩提供的资源正确初始化,则不会发生冲突。