没有隐藏状态的注意力网络?

Attention network without hidden state?

我想知道编码器的隐藏状态对于注意力网络有多大用处。当我研究注意力模型的结构时,我发现模型通常是这样的:

对于像翻译这样的过程,为什么编码器的隐藏状态前馈或存在很重要?我们已经知道下一个 x 会是什么。因此,输入的顺序不一定对输出的顺序重要,从先前的输入中记住的内容也不一定重要,因为注意力模型会同时查看所有输入。难道你不能直接在 x 的嵌入上使用注意力吗?

谢谢!

你可以很容易地尝试,看看你会得到很糟糕的结果。即使你在输入嵌入中添加了一些位置编码,结果也会很糟糕。

顺序很重要。句子:

  • John 喜欢 Marry。
  • 结婚爱约翰。

确实有不一样的意思。此外,顺序并不是您从编码器获得的唯一信息。编码器也确实输入消歧:词可以是同音的,例如"train"(参见https://arxiv.org/pdf/1908.11771.pdf). Also, the probing of trained neural networks shows that the encoder develops a pretty abstract representation of the input sentence (see https://arxiv.org/pdf/1911.00317.pdf) and a large part of the translation actually already happens in the encoder (see https://arxiv.org/pdf/2003.09586.pdf)。