RNN:仅在最终时间步获取输出时的时间反向传播
RNN: Back-propagation through time when output is taken only at final timestep
在此 blog 中,丹尼·布里茨 (Denny Britz) 关于循环神经网络。
作者指出,“上图在每个时间步都有输出,但根据任务的不同,这可能不是必需的。例如,在预测句子的情绪时,我们可能只关心最终输出,不是每个词后的情绪。同样,我们可能不需要在每个时间步都输入。"
如果我们只在最后一个时间步获取输出:如果每个时间步都没有输出,只有最后一个,反向传播将如何变化?我们需要在每个时间步定义损失,但是没有输出怎么办?
这不是真的 "need to define output at each timestep",实际上通过时间的反向传播 更简单 与图像上的输出相比。当只有一个输出 "rotate your network 90 degrees" 并且它将是一个常规的前馈网络(只是一些信号直接进入隐藏层) - 反向传播像往常一样工作,推动偏导数通过系统。当我们在每一步都有输出时,这会变得更加棘手,通常您将真实损失定义为所有 "small losses" 的 sum,因此您必须对所有梯度求和。
在此 blog 中,丹尼·布里茨 (Denny Britz) 关于循环神经网络。
如果我们只在最后一个时间步获取输出:如果每个时间步都没有输出,只有最后一个,反向传播将如何变化?我们需要在每个时间步定义损失,但是没有输出怎么办?
这不是真的 "need to define output at each timestep",实际上通过时间的反向传播 更简单 与图像上的输出相比。当只有一个输出 "rotate your network 90 degrees" 并且它将是一个常规的前馈网络(只是一些信号直接进入隐藏层) - 反向传播像往常一样工作,推动偏导数通过系统。当我们在每一步都有输出时,这会变得更加棘手,通常您将真实损失定义为所有 "small losses" 的 sum,因此您必须对所有梯度求和。