使用更多 SpatialDropouts 获得更低的 mse 是否合理?

Is it plausible to get a lower mse with more SpatialDropouts?

我观察到

SpatialDropout2D(0.2)

在 5 个 Convolutional2D 层中的每一个之后的层,在前几个时期的训练和验证错误比没有这些 Dropout 层的相同网络(其他所有相同)要低得多。这似乎违反直觉,因为如果中间结果被随机丢弃,我预计优化例程在找到最小值时会遇到更多麻烦。

所以我的观察是否合理?如果是这样,为什么?

一般来说,dropout 是用来对抗过拟合的技术之一。预计会减少测试错误,但不会减少训练错误。相反,当模型停止过度拟合时,训练误差可能会上升。

我建议阅读 Deep Learning textbook 第 7.12 节中有关辍学的更多信息。