使用截断反向传播随时间返回的步数的影响
Influence of number of steps back when using truncated backpropagation through time
我目前正在使用带张量流的 LSTM 单元开发时间序列预测模型。我的模型类似于ptb_word_lm。它有效,但我不确定在使用截断的反向传播时如何理解后退参数的数量(该参数在示例中称为 num_steps
)。
据我了解,模型参数每 num_steps
步更新一次。但这是否也意味着模型无法识别比 num_steps
更远的依赖关系。我认为应该是因为内部状态应该捕获它们。但是哪个效果有 large/small num_steps
值。
ptb_word_lm例子中的num_steps显示序列长度或预测下一个词要处理的词数。
例如,如果你有一个句子。
"Widows and orphans occur when the first line of a paragraph is the last line in a column or page, or when the last line of a paragraph is the first line of a new column or page."
如果你说 num_steps = 5
那么你的意思是
输入="Widows and orphans occur when"
输出="and orphans occur when the"
即给定单词 ("Widows","and","orphans","occur","when"),您正在尝试预测单词 ("the").
所以,num_steps实际上在记住更大的上下文(即给定的单词)以预测下一个单词的概率方面起着重要作用
希望这对您有所帮助..
我目前正在使用带张量流的 LSTM 单元开发时间序列预测模型。我的模型类似于ptb_word_lm。它有效,但我不确定在使用截断的反向传播时如何理解后退参数的数量(该参数在示例中称为 num_steps
)。
据我了解,模型参数每 num_steps
步更新一次。但这是否也意味着模型无法识别比 num_steps
更远的依赖关系。我认为应该是因为内部状态应该捕获它们。但是哪个效果有 large/small num_steps
值。
ptb_word_lm例子中的num_steps显示序列长度或预测下一个词要处理的词数。
例如,如果你有一个句子。
"Widows and orphans occur when the first line of a paragraph is the last line in a column or page, or when the last line of a paragraph is the first line of a new column or page."
如果你说 num_steps = 5
那么你的意思是
输入="Widows and orphans occur when"
输出="and orphans occur when the"
即给定单词 ("Widows","and","orphans","occur","when"),您正在尝试预测单词 ("the").
所以,num_steps实际上在记住更大的上下文(即给定的单词)以预测下一个单词的概率方面起着重要作用
希望这对您有所帮助..