训练数据 'batches' 如何分发给 Tensorflow 中的工作人员？

How are training data 'batches' distributed to workers in Tensorflow?

我是运行分布式 Tensorflow，以 CIFAR10 为例，最多有 128 个 worker 和 1 个参数服务器。

我想知道 FLAGS.batch_size 是否决定了发送给每个工人的每个批次的大小，或者这个 FLAGS.batch_size 是否决定了发送给所有工人的每个批次的大小？

这种差异会对性能产生影响，因为将一个批次拆分到太多工作器会导致通信过多而计算不足。

分布式CIFAR10示例中的batch size是指每个GPU的batch size。

（但这是一个很好的问题 - 一些同步模型将其称为合计批量大小！）