数据时间专业和批处理专业有什么区别?

What's the difference between data time major and batch major?

谁能解释一下数据time majorbatch major是什么意思,它们有什么区别?

尝试用最简单的术语来说:这些是相同数据的不同表示(或排列)。

二维示例

例如,假设你有这样的数据(只是为了说明,不是真实数据):

1 11 21 31
2 12 22 32
3 13 23 33
...
100 111 121 131

... 其中每一行对应一个训练输入,每一列对应一个不同的特征。矩阵的大小为 (batch_size, features),其中 batch_size=100features=4

接下来,在某些情况下,您可能会得到一个转置矩阵作为输入(例如,它是上一步的输出):

1 2 3 ... 100
11 12 13 ... 111
21 22 23 ... 121
31 32 33 ... 131

在这种情况下,矩阵形状是(features, batch_size)。注意:数据本身不会改变。只有数组维度发生了变化:批次在第一个示例中是 0 轴,在第二个示例中是 1 轴。另请注意,可以非常轻松高效地交换不同的演示文稿。在tensorflow中,可以用tf.transpose.

来完成

时间专业 vs 批次专业

当涉及到 RNN 时,张量通常达到 3+ 等级,但想法保持不变。如果输入是(batch_size, sequence_num, features),就叫batch major,因为0轴就是batch_size。如果输入是(sequence_num, batch_size, features),它同样被称为time majorfeatures 始终是最后一个维度(至少我不知道实际情况是否不是),因此命名没有更多变化。

根据网络结构,它可能会特别期望批次或时间作为 0 轴,因此输入数据的格式很重要。并且根据前面的层,可以将这些表示中的任何一个输入到 RNN 中。因此,库函数或调用者可能需要将一种排列转换为另一种排列。据我所知,batch major 是 tensorflow 和 keras 中的默认设置,因此它简单地归结为从 RNN 之前的层产生的形状。

再说一遍:batch major和time major的表示是一一对应的。任何张量都可以表示为两者。但是对于特定的实现,可以预期或需要其中之一。