没有隐藏状态的注意力网络？

Attention network without hidden state?

我想知道编码器的隐藏状态对于注意力网络有多大用处。当我研究注意力模型的结构时，我发现模型通常是这样的：

x: 输入。
h：编码器的隐藏状态，前馈给下一个编码器的隐藏状态。
s: 解码器的隐藏状态所有编码器隐藏状态的加权和作为输入和提要转发到下一个解码器的隐藏状态。
y: 输出。

对于像翻译这样的过程，为什么编码器的隐藏状态前馈或存在很重要？我们已经知道下一个 x 会是什么。因此，输入的顺序不一定对输出的顺序重要，从先前的输入中记住的内容也不一定重要，因为注意力模型会同时查看所有输入。难道你不能直接在 x 的嵌入上使用注意力吗？

谢谢！

你可以很容易地尝试，看看你会得到很糟糕的结果。即使你在输入嵌入中添加了一些位置编码，结果也会很糟糕。

顺序很重要。句子：

John 喜欢 Marry。
结婚爱约翰。

确实有不一样的意思。此外，顺序并不是您从编码器获得的唯一信息。编码器也确实输入消歧：词可以是同音的，例如"train"（参见https://arxiv.org/pdf/1908.11771.pdf). Also, the probing of trained neural networks shows that the encoder develops a pretty abstract representation of the input sentence (see https://arxiv.org/pdf/1911.00317.pdf) and a large part of the translation actually already happens in the encoder (see https://arxiv.org/pdf/2003.09586.pdf）。

没有隐藏状态的注意力网络？

Attention network without hidden state?

machine-learning

translate

recurrent-neural-network

attention-model