在长序列上训练 RNN

Training RNNs on long sequences

我正在训练一个 LSTM 网络,我希望了解在 O(1k) 长度或更长的长序列上进行训练的最佳实践。选择小批量大小的好方法是什么?标签流行度的偏差将如何影响该选择? (在我的场景中,积极的情况很少见)。努力重新平衡我的数据是否值得? 谢谢。

您可能想要重新平衡,所以它们是 50/50。否则它会偏向一个 class 或另一个。

至于批量大小,我会选择适合内存的大小。

我不确定 LSTM 能否学习 O(1k) 的依赖关系,但值得一试。如果你想要超长的依赖关系,你可以考虑做像 wavenet 这样的东西。

https://deepmind.com/blog/wavenet-generative-model-raw-audio/