return_sequences 在 LSTM 中

return_sequences in LSTM

在 Keras 中,model.add(LTSM(units=xx, return_sequences = yy, input_shape=zz),将 return_sequences 设置为 true 时,是否意思是 have/enable 蓝色圆圈的箭头,而不是 have/disable 红色圆圈的箭头?当 return_sequences 设置为 false 时反之亦然? 请注意图片来自此页面:https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/ under '4. Architecture of LSTMs'

首先,蓝色圆圈是LSTM的精髓,它永远不会被禁用,否则你根本就没有rnn/lstm。该箭头意味着无论您从最后一个 rnn/lstm 单元格获得什么值,您都将把它传递给下一个 rnn/lstm 单元格,并且它将与下一个输入一起处理。 rnn 和 lstm 之间的唯一区别只是简单的 rnn 没有那个蓝色圆圈箭头,只有下面的黑色箭头,而 lstm 有那个箭头作为 short/long 术语记忆的门。

其次,对于return_sequences,它通常用于堆叠rnn/lstm,这意味着您将一层rnn/lstm垂直堆叠在另一层之上,而不是水平堆叠。水平 rnn/lstm 单元表示跨时间处理,而垂直 rnn/lsm 单元表示将一层堆叠在另一层上。

当您将其设置为 false 时,这意味着只有最后一个单元格(水平)将具有 red_circled 箭头,而所有其他单元格(在同一层中)将具有该 red_circled 箭头已禁用,因此您只会传递来自所有水平层的一条信息(即该层中最后一个单元格传递的信息)。

相反,当您将其设置为 true 时,该水平层中的所有单元格都将启用红色圆圈箭头,并将信息传递到堆叠在其顶部的层。这意味着如果你想将一层 rnn/lstm 层堆叠在另一层之上,你需要将其设置为 true。

最后,更多信息你可以参考这本书。它对此 return_sequences 选项有很好的解释:https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/