使用更多 SpatialDropouts 获得更低的 mse 是否合理？

Question

我观察到

SpatialDropout2D(0.2)

在 5 个 Convolutional2D 层中的每一个之后的层，在前几个时期的训练和验证错误比没有这些 Dropout 层的相同网络（其他所有相同）要低得多。这似乎违反直觉，因为如果中间结果被随机丢弃，我预计优化例程在找到最小值时会遇到更多麻烦。

所以我的观察是否合理？如果是这样，为什么？

Answer 1

一般来说，dropout 是用来对抗过拟合的技术之一。预计会减少测试错误，但不会减少训练错误。相反，当模型停止过度拟合时，训练误差可能会上升。

我建议阅读 Deep Learning textbook 第 7.12 节中有关辍学的更多信息。

Is it plausible to get a lower mse with more SpatialDropouts?