使用截断反向传播随时间返回的步数的影响

Influence of number of steps back when using truncated backpropagation through time

我目前正在使用带张量流的 LSTM 单元开发时间序列预测模型。我的模型类似于ptb_word_lm。它有效,但我不确定在使用截断的反向传播时如何理解后退参数的数量(该参数在示例中称为 num_steps)。

据我了解,模型参数每 num_steps 步更新一次。但这是否也意味着模型无法识别比 num_steps 更远的依赖关系。我认为应该是因为内部状态应该捕获它们。但是哪个效果有 large/small num_steps 值。

ptb_word_lm例子中的num_steps显示序列长度或预测下一个词要处理的词数。

例如,如果你有一个句子。

"Widows and orphans occur when the first line of a paragraph is the last line in a column or page, or when the last line of a paragraph is the first line of a new column or page."

如果你说 num_steps = 5

那么你的意思是

输入="Widows and orphans occur when"

输出="and orphans occur when the"

即给定单词 ("Widows","and","orphans","occur","when"),您正在尝试预测单词 ("the").

所以,num_steps实际上在记住更大的上下文(即给定的单词)以预测下一个单词的概率方面起着重要作用

希望这对您有所帮助..