DeepMind 深度 Q 网络 (DQN) 3D 卷积

Deepmind Deep Q Network (DQN) 3D Convolution

我正在阅读有关 DQN 网络的 deepmind nature 论文。 我几乎得到了关于它的一切,除了一个。我不知道为什么以前没有人问过这个问题,但无论如何我觉得有点奇怪。

我的问题: DQN 的输入是一张 84*84*4 的图像。第一个卷积层由 32 个 8*8 步幅为 4 的滤波器组成。我想知道这个卷积阶段的结果到底是什么?我的意思是,输入是 3D,但我们有 32 个滤波器,它们都是 2D。第三维(对应游戏最后4帧)如何参与卷积?

有什么想法吗? 谢谢 阿敏

您可以将第三维(表示最后四帧)视为进入网络的通道。

如果您组合三个 RGB 通道来创建灰度表示,则会出现类似的情况。在这种情况下,您分别执行每个卷积(针对每个通道)并对贡献求和以给出最终输出特征图。

DeepMind 人员参考这篇论文 (What is the Best Multi-Stage Architecture for Object Recognition?),它可能会提供更好的解释。