如何使用 Google 计算引擎实例设置 Tensorflow 集群来训练模型?

How do I set up a Tensorflow cluster using Google Compute Engine Instances to train a model?

我知道可以使用 docker 图像,但我需要 Kubernetes 来创建集群吗?模型服务有可用的说明,但是在 Kubernetes 上进行模型训练呢?

您可以使用 Kubernetes Jobs 来 运行 批处理计算任务。但目前(大约 v1.6)在 Kubernetes 中设置数据管道并不容易。

您可能想看看 Pachyderm,这是一个构建在 Kubernetes 之上的数据处理框架。它添加了一些不错的数据 packing/versioning 工具。