举一个视觉识别任务的例子,其中全连接网络比卷积神经网络更合适

Give an example visual recognition task where a fully connected network would be more suitable than a convolution neural networks

我知道 CNN 有很多很好的特性,比如权重共享、节省内存和特征提取。但是,这个问题让我很困惑。全连接网络有没有可能比CNN更好的情况?为什么?

非常感谢你们!

Is there any possible situation that fully connected network better than CNN?

嗯,我想我们应该首先定义"better" 的意思。准确性和精度不是唯一要考虑的因素:计算时间、自由度和优化难度也应考虑在内。

首先,考虑大小为 h*w*c 的输入。将此输入馈送到具有 F 特征图和内核大小 s 的卷积层将产生大约 F*s*s*c 可学习参数(假设对卷积的等级没有限制,否则我们甚至有更少的参数。)。将相同的输入输入具有相同数量特征图的全连接层将导致 F*d_1*d_2*w*h*c,(其中 d_1,d_2 是每个特征图的维度)这显然是给定的数十亿个可学习参数的数量级任何具有合适分辨率的输入图像。

虽然我们很容易认为我们可以摆脱较浅的网络(我们已经有很多参数,对吧?),但全连接层毕竟只是线性层,所以我们仍然需要插入许多非- 线性以使网络获得合理的代表性能力。因此,这将意味着您仍然需要一个深度网络,但是参数太多以至于难以处理。此外,更大的网络将拥有更多的自由度,因此会模拟比我们想要的更多的东西:它会模拟噪声,除非我们给它提供一些数据或对其进行约束。

所以是的,可能存在一个理论上可以为我们提供更好性能的全连接网络,但我们还不知道如何训练它。最后,这纯粹是基于直觉,因此可能是错误的,但在我看来,这样一个完全连接的网络不太可能收敛到一个密集的解决方案。由于许多卷积网络在许多任务上都达到了非常高的准确度(99% 及以上),我认为全连接网络收敛到的最佳解决方案将接近于卷积网络。所以,我们真的不需要训练全连接的,只需要训练它架构的一个子集。