在神经网络进行图像检测（例如）的情况下，"input" 到底指的是什么？

What exactly does an "input" refer in the case of a neural network doing image detection (for example)?

比如说，我们以图像集合的形式输入：- (200,56x56,3) 其中 200 是不同图像的数量，56x56 是像素（长度与宽度），3 指的是 RGB 值

所以，x1,x2,x3,x4等是指（实例数，像素（长度），像素（宽度）和RGB值？

或者是否有 1,881,600 个输入（等于 200x56x56x3）？

您案例中的输入数量是1*56*56*3=9408。想象一下，您想要为尺寸为 56*56 的 1 新图像预测一个值，您将必须向网络提供每个像素的所有 RGB 值 (3)。

实际上，如图片中所述，前馈神经网络不用于图像分类。相反，我们使用的是 CNN（卷积神经网络）。