当 CNN 在反向传播过程中学习一组特征时,比较了什么?

What is compared when a CNN learns a set of features during backpropagation?

我是这个学科的新手,一直在大量阅读。我特别困惑的是 CNN 如何针对训练数据集中的特定标记特征学习其过滤器。

成本是根据哪些输出应该或不应该在逐个像素的基础上激活来计算的?如果是这样的话,在下采样后如何将激活映射到标记数据?

对于任何错误的假设或普遍的误解,我深表歉意。再一次,我是这个领域的新手,非常感谢所有反馈。

我会把它分成几个小部分。

  1. 成本计算——成本/错误/损失仅取决于将最终预测(最后一层的输出)与标签(ground truth)进行比较。这用作衡量预测正确或错误的指标。

  2. 层间结构——预测的每个输入都是前一层的输出。这个输出有一个值;两者之间的link有权重

  3. Back-prop -- 每个权重都会根据误差比较及其权重按比例进行调整。有助于正确预测的连接会得到奖励:它的权重会增加。相反,推动错误预测的连接会减少。

  4. 像素级控制——澄清术语...传统上,每个内核是一个浮点值的方阵,每个都称为"pixel"。像素是单独训练的。然而,该训练来自于在内核中滑动一个较小的过滤器(也是方形的),执行 window 与内核的相应方形子矩阵的点积。该点积的输出是下一层中单个像素的值。

  5. 当层 N 中的像素强度增加时,这有效地增加了提供该输入的层 N-1 中滤波器的影响。该过滤器的像素依次由​​ N-2.

  6. 层的输入进行调整