DeepMind 深度 Q 网络 (DQN) 3D 卷积

Deepmind Deep Q Network (DQN) 3D Convolution

我正在阅读有关 DQN 网络的 deepmind nature 论文。我几乎得到了关于它的一切，除了一个。我不知道为什么以前没有人问过这个问题，但无论如何我觉得有点奇怪。

我的问题： DQN 的输入是一张 84*84*4 的图像。第一个卷积层由 32 个 8*8 步幅为 4 的滤波器组成。我想知道这个卷积阶段的结果到底是什么？我的意思是，输入是 3D，但我们有 32 个滤波器，它们都是 2D。第三维（对应游戏最后4帧）如何参与卷积？

有什么想法吗？谢谢阿敏

您可以将第三维（表示最后四帧）视为进入网络的通道。

如果您组合三个 RGB 通道来创建灰度表示，则会出现类似的情况。在这种情况下，您分别执行每个卷积（针对每个通道）并对贡献求和以给出最终输出特征图。

DeepMind 人员参考这篇论文 (What is the Best Multi-Stage Architecture for Object Recognition?)，它可能会提供更好的解释。