LSTM-分离隐藏状态

LSTM- detach the hidden state

所以我开始研究RNN，特别是LSTM，其中有一部分理论我就是不明白。

当你堆叠 LSTM 单元时，我看到每个人如何从历史中分离隐藏状态，但这对我来说毫无意义，难道 LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗？

我阅读了文档，但我仍然不清楚，所以欢迎任何解释

你没看错，LSTM 中的隐藏状态是用来作为记忆的。但是这个问题出现了，我们应该学习它们吗？不，隐藏状态不应该被学习，所以我们分离它让模型使用这些值而不是 而不是 计算梯度。

如果不分离，那么梯度会很大