Tensorflow 和 运行 分布式扭矩训练
Tensorflow and running distributed training with torque
我写了一个符合tensorflow guide on distributed training的神经网络:https://www.tensorflow.org/deploy/distributed
如果我想要 运行 训练的集群使用扭矩进行作业调度和分配,这如何适应 tensorflow 以及它如何在集群上分配训练?
我是否将训练设置在扭矩的一个节点上,然后让 tensorflow 从那里分配它,或者这会与扭矩的功能发生冲突。如果 tensorflow 可以处理分布,甚至还需要扭矩吗?如何避免两者冲突?
提前致谢。
Torque和分布式tensorflow负责不同的任务,彼此没有直接关系。
Torque 用于将集群的资源分配给多个作业。在一项工作中,只有根据请求的资源可用。
分布式张量流用于在可用资源(在一个作业中)之间并行化张量流任务。
通常您会使用 torque 获取 tensorflow 任务所需的所有资源,然后使用分布式 tensorflow 将任务分配给 torque 提供的资源。
如果 tf.train.ClusterSpec
使用扭矩提供的资源正确初始化,则不会发生冲突。
我写了一个符合tensorflow guide on distributed training的神经网络:https://www.tensorflow.org/deploy/distributed
如果我想要 运行 训练的集群使用扭矩进行作业调度和分配,这如何适应 tensorflow 以及它如何在集群上分配训练?
我是否将训练设置在扭矩的一个节点上,然后让 tensorflow 从那里分配它,或者这会与扭矩的功能发生冲突。如果 tensorflow 可以处理分布,甚至还需要扭矩吗?如何避免两者冲突?
提前致谢。
Torque和分布式tensorflow负责不同的任务,彼此没有直接关系。 Torque 用于将集群的资源分配给多个作业。在一项工作中,只有根据请求的资源可用。 分布式张量流用于在可用资源(在一个作业中)之间并行化张量流任务。
通常您会使用 torque 获取 tensorflow 任务所需的所有资源,然后使用分布式 tensorflow 将任务分配给 torque 提供的资源。
如果 tf.train.ClusterSpec
使用扭矩提供的资源正确初始化,则不会发生冲突。