卷积神经网络

Question

这种对卷积神经网络的直观理解是否正确： 1. 卷积基本上匹配图像的局部部分与卷积的相似程度 kernel/filter 2. kernel/filter 就像一个特征检测器。重要的是，它是 学习的 并通过 SGD

自动更改和优化

Answer 1

对 "how similar" 的 veeeeeeeeeeeery 粗略理解确实如此。如果您将点积的计算视为衡量相似性，那么答案是肯定的。为什么我个人有疑问？因为它在很大程度上取决于向量（或矩阵）的范数。让我们考虑图像

1 1 1
2 2 2
1 1 1

和内核

1 1 1
2 2 2
1 1 1

我们对它们进行卷积得到

1 + 1 + 1 + 2*2 + 2*2 + 2*2 + 1 + 1 + 1 = 18

现在让我们拍照

2 2 2
2 2 2
2 2 2

我们得到

2 + 2 + 2 + 2*2 + 2*2 + 2*2 + 2 + 2 + 2 = 24

我会说第一张图像比另一张图像更 与内核相似 ，但卷积说的是别的东西。因此这并不是那么简单，卷积只是图像的基本线性滤波，对信号进行卷积，将点积应用于子样本，但是称它为 "a similarity search" 有点过分了。然而，它是一个特征检测器，一个非常具体的检测器。

您在描述中遗漏的关于卷积的关键是这些检测器的共同性质，事实上，您学习一组局部图像过滤器，应用于图像的每个 "spot"，从而实现了一种位置不变性并大大减少了模型的参数化。

Answer 2

您提供的解释大致正确，但可以从一些详细说明中获益。

考虑卷积神经网络的一种方式是 location-independent 以分层方式堆叠的模式识别器。卷积运算通过在输入 space 的每个位置应用内核来影响 location-independence。

每个卷积层将识别特定特征（从训练中学习）。输出可以被认为是存在哪些特征以及在哪个位置的映射。

堆叠卷积层允许后续层识别更复杂的特征（您可以将体系结构中的每个卷积层视为识别特征，这些特征本身是前一层学习到的特征的组合）。

为了有效地训练这些网络，我们通常希望在接近输出分类器时 "funnel" 降低数据维度（在网络中从左向右移动）。这通常是通过 sub-sampling（通过池化操作（通常是最大，有时是平均）或通过卷积跨步，这涉及在抽取的卷积输出的评估）来牺牲一些空间信息的粒度可能输出位置的子集）。

一致地，卷积和池化操作学习输入的非线性投影 space。用数学术语来说，网络的 "deep" 卷积部分学习了从非常 highly-dimensional 输入 space（例如图像中的 RGB 像素）到 lower-dimensional 输出，它基本上传达了一组学习特征的发生率和位置（通常是原始空间或时间分辨率的一小部分）。

一旦我们有了这样的 low-dimensional 表示，这通常会被展平并馈送到 "traditional" fully-connected 网络中，该网络能够有效地在 ( comparatively) low-dimensional 由卷积层产生的抽象特征集。

从历史上看，许多分类方法依赖于复杂的 "feature engineering" 来执行与卷积层正在学习的内容类似的操作，以便轻松有效地训练分类器（可以是神经网络、随机森林、SVM 或任意数量的其他算法）。 ConvNets 的强大之处在于它们能够消除对特征工程的需求，并将特征学习任务与分类器的训练完全结合起来。

卷积神经网络

Convolutional neural networks

machine-learning

computer-vision

neural-network

conv-neural-network