训练数据 'batches' 如何分发给 Tensorflow 中的工作人员?

How are training data 'batches' distributed to workers in Tensorflow?

我是 运行 分布式 Tensorflow,以 CIFAR10 为例,最多有 128 个 worker 和 1 个参数服务器。

我想知道 FLAGS.batch_size 是否决定了发送给每个工人的每个批次的大小,或者这个 FLAGS.batch_size 是否决定了发送给所有工人的每个批次的大小?

这种差异会对性能产生影响,因为将一个批次拆分到太多工作器会导致通信过多而计算不足。

分布式CIFAR10示例中的batch size是指每个GPU的batch size。

(但这是一个很好的问题 - 一些同步模型将其称为合计批量大小!)