为什么上下文向量没有传递到解码器的每个输入

why the context vector is not passed to every input of the decoder

在这个模型中,在编码器部分,我们给出一个包含 3 个词 A、B 和 c 的输入句子,我们得到一个上下文向量 W,它被传递给解码器。为什么我们不将 W 传递给解码器的所有单元而不是前一个单元的输出,例如(首先传递 W,然后传递下一个单元格的 X,再传递下一个单元格的 Y)

谁能解释一下解码器的单元状态到底发生了什么?传递给解码器的编码器单元状态发生了什么

这是一个没有注意力的普通编码器-解码器模型,没有上下文向量,注意力机制的输出就是这样调用的。

读完句子ABC,LSTM状态应该包含了整个输入序列的信息,这样我们就可以开始解码了。作为第一个单词,我们解码单词 W 并将其作为下一步的输入,我们解码单词 X 等等。 LSTM 没有输入上下文向量,而是嵌入了相应的词。

解码器必须始终获取前一个单词,因为它不知道在上一步中解码的是什么单词。 LSTM 状态被投影到词汇量大小,我们对所有可能的单词都有一个分布,并且可以对分布中的任何单词进行采样并在下一步中将其放入输入中。