在神经网络进行图像检测(例如)的情况下,"input" 到底指的是什么?

What exactly does an "input" refer in the case of a neural network doing image detection (for example)?

比如说,我们以图像集合的形式输入:- (200,56x56,3) 其中 200 是不同图像的数量,56x56 是像素(长度与宽度),3 指的是 RGB 值

所以,x1,x2,x3,x4等是指(实例数,像素(长度),像素(宽度)和RGB值?

或者是否有 1,881,600 个输入(等于 200x56x56x3)?

您案例中的输入数量是1*56*56*3=9408。想象一下,您想要为尺寸为 56*561 新图像预测一个值,您将必须向网络提供每个像素的所有 RGB 值 (3)。

实际上,如图片中所述,前馈神经网络不用于图像分类。相反,我们使用的是 CNN(卷积神经网络)。