即使可以访问无限数据,dropout 也会改进模型吗?

Does dropout improve models even with access to infinite data?

关于何时使用 dropout 还是简单地获取更多数据,是否有很好理解的指南?我以前明白,如果有足够的数据,就不会想要使用 dropout。然而,我最近有一个模型(4 层 LSTM 处理音频输入),无论我提供多少数据,它都凭经验收敛到一定的损失 - 然后当我添加 dropout 时显着改善。

这个现象很好理解吗?那么是否应该始终使用 dropout,即使有更多(可能是无限的)数据可用?

跟进:如果是这样的话,我在RL论文中并没有看到太多提及dropout。我假设这是因为有无限的可生成数据。关于探索的状态 space 的比例,或可用训练数据的异质性等,是否还有其他细微差别需要考虑?

没有针对辍学的精确处方 - Hinton's group 2014 paper 似乎证实了这一点。然而他们在那里写道:

Dropout introduces a significant amount of noise in the gradients compared to standard stochastic gradient descent. Therefore, a lot of gradients tend to cancel each other. In order to make up for this, a dropout net should typically use 10-100 times the learning rate that was optimal for a standard neural net.

所以我天真的猜测是需要 10-100 倍的额外训练数据。另请注意,使用 dropout 实际上可以使所需的训练制度数量增加三倍——这是一个需要牢记的额外因素。

Dropout 会降低训练的准确性以换取测试的准确性。但是,您在数据上的表现受训练准确性的限制。在一个拥有无限独立分布式数据的世界中,有可能获得与训练集相同的问题性能,因为本质上它是相同的数据。

然而在实践中你永远不会有这么好的训练集。即使你获得了无穷大的数据,它也不代表你的分布,也绝对不是独立的。