使用估算器进行多 GPU 训练

Multi gpu training with estimators

在这个 link https://www.tensorflow.org/beta/tutorials/distribute/multi_worker_with_estimator 他们说当使用 Estimator 进行 multi-worker 训练时,有必要根据 worker 的数量对数据集进行分片以确保模型 convergence.By multi -worker 他们是指一个系统中的多个 GPU 还是分布式训练?我在一个系统中有 2 个 GPU,我是否必须对数据集进行分片?

不,你不知道 - 多个工作人员指的是一组机器。

对于具有多个 GPU 的单机,您不需要对其进行分片。

本教程介绍了您想要用于多个 GPU 的 MirroredStrategy:https://www.tensorflow.org/beta/tutorials/distribute/keras

对于不同设置的不同分布式策略,您可以参考此处了解更多信息:https://www.tensorflow.org/beta/guide/distribute_strategy#types_of_strategies