MaxPooling 会减少过度拟合吗?

Does MaxPooling reduce overfitting?

我用较小的数据集训练了以下 CNN 模型,因此它会过度拟合:

model = Sequential()
model.add(Conv2D(32, kernel_size=(3,3), input_shape=(28,28,1), padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))

model.add(Conv2D(32, kernel_size=(3,3), padding='same'))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2,2)))
model.add(Dropout(0.4))

model.add(Flatten())
model.add(Dense(512))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))
model.compile(loss="categorical_crossentropy", optimizer=Adam(), metrics=['accuracy'])

该模型有很多可训练的参数(超过 300 万,这就是为什么我想知道是否应该像下面这样使用额外的 MaxPooling 来减少参数的数量?

Conv - BN - Act - MaxPooling - Conv - BN - Act - MaxPooling - Dropout - Flatten

或者像下面这样使用额外的 MaxPooling 和 Dropout?

Conv - BN - Act - MaxPooling - Dropout - Conv - BN - Act - MaxPooling - Dropout - Flatten

我正在尝试了解 MaxPooling 的完整含义以及它是否有助于防止过度拟合。

当您的数据集不足以容纳您的特征数量时,可能会发生过度拟合。 最大池化使用最大操作来池化特征集,让您拥有更少的特征。 因此,最大池应该在逻辑上减少过度拟合。

Drop-out 通过确保某个特征并不总是可用来减少对任何单一特征的依赖,迫使模型寻找不同的潜在提示,而不是仅仅坚持一个——这很容易让模型过度拟合任何明显好的提示。 因此,这也应该有助于减少过度拟合。

你应该使用最大池来减少过度拟合,虽然它对此有很小的影响,但是这个小效果是不够的,因为你在卷积操作之后应用最大池化,这意味着特征已经在这一层中训练并且因为最大池化用于减少输出的高度和宽度,这将使下一层的特征具有较少的卷积操作来学习,这意味着LITTLE EFFECT 对过拟合问题的影响很小,不会解决它。 其实完全不推荐使用Pooling来解决这类问题,这里有一些提示:

  1. 减少参数的数量,因为很难(并非不可能)找到足够的数据来训练 300 万个参数而不会过度拟合。
  2. 顺便说一句,使用非常有效的 Drop-out 或 L2 正则化等正则化技术
  3. 3.DONT 使用最大池化来减少过度拟合,因为它用于减少表示并使 网络对某些功能更健壮,因此更多地使用它 much 将使网络对某种 特色。

希望对您有所帮助!