如何在 TensorFlow 中使用分布式 DNN 训练?

How do I use distributed DNN training in TensorFlow?

Google 今天发布了 TensorFlow。

我一直在查看代码,但我没有在代码中看到任何内容或API关于跨 GPU 服务器集群进行训练的内容。

有分布式训练功能吗?

更新

您可能已经注意到了。 Tensorflow 支持分布式 DNN 训练已经有一段时间了。详情请参考官网

=========================================== ============================

上一个

不,它还不支持分布训练,这有点令人失望。但我认为从单机扩展到多机并不难。与Caffe等其他开源库相比,TF的数据图结构更适合跨机任务。

更新:

该版本发布于 2016 年 2 月 26 日,由合著者 Derek Murray 在原始问题 here and uses gRPC 中宣布用于进程间通信。

上一个:

在上述更新之前,尚未发布 TensorFlow 的分布式实现。支持分布式实施是 this issue where coauthor Vijay Vasudevan wrote:

的主题

we are working on making a distributed implementation available, it's currently not in the initial release

Jeff Dean 后来提供了 an update:

Our current internal distributed extensions are somewhat entangled with Google internal infrastructure, which is why we released the single-machine version first. The code is not yet in GitHub, because it has dependencies on other parts of the Google code base at the moment, most of which have been trimmed, but there are some remaining ones.

We realize that distributed support is really important, and it's one of the top features we're prioritizing at the moment.

我们花了几个月的时间,但今天标志着最初 distributed TensorFlow runtime. This includes support for multiple machines, each with multiple GPUs, with communication provided by gRPC 的发布。

当前版本包含必要的后端组件,以便您可以手动 assemble 集群并从客户端程序连接到它。 readme.

中提供了更多详细信息