TensorFlow 2.0 - 如何创建工人?簇

TensorFlow 2.0 - How to create a worker? Cluster

我是 Tensorflow 的新手,我想使用不同的机器执行分布式computing/training。

this link中的教程提到:

In practice, users would create multiple workers on external IP addresses/ports, and set TF_CONFIG on each worker appropriately.

我没有找到任何说明如何做到这一点的信息。

我确实找到了使用旧版本 TensorFlow 的教程,但是没有 TF_CONFIG 并且我没有看到示例中使用任何 ClusterSpec,所以我很困惑。

事实证明答案比预期的要简单。

在所有机器上设置相同的TF_CONFIG,然后在所有机器上运行设置相同的脚本。

所有 nodes/workers 连接后训练才会开始。