LSTM-分离隐藏状态
LSTM- detach the hidden state
所以我开始研究RNN,特别是LSTM,其中有一部分理论我就是不明白。
当你堆叠 LSTM 单元时,我看到每个人如何从历史中分离隐藏状态,但这对我来说毫无意义,难道 LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗?
我阅读了文档,但我仍然不清楚,所以欢迎任何解释
你没看错,LSTM 中的隐藏状态是用来作为记忆的。但是这个问题出现了,我们应该学习它们吗?不,隐藏状态不应该被学习,所以我们分离它让模型 使用 这些值而不是 而不是 计算梯度。
如果不分离,那么梯度会很大
所以我开始研究RNN,特别是LSTM,其中有一部分理论我就是不明白。
当你堆叠 LSTM 单元时,我看到每个人如何从历史中分离隐藏状态,但这对我来说毫无意义,难道 LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗?
我阅读了文档,但我仍然不清楚,所以欢迎任何解释
你没看错,LSTM 中的隐藏状态是用来作为记忆的。但是这个问题出现了,我们应该学习它们吗?不,隐藏状态不应该被学习,所以我们分离它让模型 使用 这些值而不是 而不是 计算梯度。
如果不分离,那么梯度会很大