即使可以访问无限数据，dropout 也会改进模型吗？

Does dropout improve models even with access to infinite data?

关于何时使用 dropout 还是简单地获取更多数据，是否有很好理解的指南？我以前明白，如果有足够的数据，就不会想要使用 dropout。然而，我最近有一个模型（4 层 LSTM 处理音频输入），无论我提供多少数据，它都凭经验收敛到一定的损失 - 然后当我添加 dropout 时显着改善。

这个现象很好理解吗？那么是否应该始终使用 dropout，即使有更多（可能是无限的）数据可用？

跟进：如果是这样的话，我在RL论文中并没有看到太多提及dropout。我假设这是因为有无限的可生成数据。关于探索的状态 space 的比例，或可用训练数据的异质性等，是否还有其他细微差别需要考虑？

没有针对辍学的精确处方 - Hinton's group 2014 paper 似乎证实了这一点。然而他们在那里写道：

Dropout introduces a significant amount of noise in the gradients compared to standard stochastic gradient descent. Therefore, a lot of gradients tend to cancel each other. In order to make up for this, a dropout net should typically use 10-100 times the learning rate that was optimal for a standard neural net.

所以我天真的猜测是需要 10-100 倍的额外训练数据。另请注意，使用 dropout 实际上可以使所需的训练制度数量增加三倍——这是一个需要牢记的额外因素。

Dropout 会降低训练的准确性以换取测试的准确性。但是，您在数据上的表现受训练准确性的限制。在一个拥有无限独立分布式数据的世界中，有可能获得与训练集相同的问题性能，因为本质上它是相同的数据。

然而在实践中你永远不会有这么好的训练集。即使你获得了无穷大的数据，它也不代表你的分布，也绝对不是独立的。

即使可以访问无限数据，dropout 也会改进模型吗？

Does dropout improve models even with access to infinite data?

reinforcement-learning

deep-learning

lstm

tensorflow