在长序列上训练 RNN

Training RNNs on long sequences

我正在训练一个 LSTM 网络，我希望了解在 O(1k) 长度或更长的长序列上进行训练的最佳实践。选择小批量大小的好方法是什么？标签流行度的偏差将如何影响该选择？（在我的场景中，积极的情况很少见）。努力重新平衡我的数据是否值得？谢谢。

您可能想要重新平衡，所以它们是 50/50。否则它会偏向一个 class 或另一个。

至于批量大小，我会选择适合内存的大小。

我不确定 LSTM 能否学习 O(1k) 的依赖关系，但值得一试。如果你想要超长的依赖关系，你可以考虑做像 wavenet 这样的东西。

https://deepmind.com/blog/wavenet-generative-model-raw-audio/