没有隐藏状态的注意力网络?
Attention network without hidden state?
我想知道编码器的隐藏状态对于注意力网络有多大用处。当我研究注意力模型的结构时,我发现模型通常是这样的:
- x: 输入。
- h:编码器的隐藏状态,前馈给下一个
编码器的隐藏状态。
- s: 解码器的隐藏状态
所有编码器隐藏状态的加权和作为输入和提要
转发到下一个解码器的隐藏状态。
- y: 输出。
对于像翻译这样的过程,为什么编码器的隐藏状态前馈或存在很重要?我们已经知道下一个 x 会是什么。因此,输入的顺序不一定对输出的顺序重要,从先前的输入中记住的内容也不一定重要,因为注意力模型会同时查看所有输入。难道你不能直接在 x 的嵌入上使用注意力吗?
谢谢!
你可以很容易地尝试,看看你会得到很糟糕的结果。即使你在输入嵌入中添加了一些位置编码,结果也会很糟糕。
顺序很重要。句子:
- John 喜欢 Marry。
- 结婚爱约翰。
确实有不一样的意思。此外,顺序并不是您从编码器获得的唯一信息。编码器也确实输入消歧:词可以是同音的,例如"train"(参见https://arxiv.org/pdf/1908.11771.pdf). Also, the probing of trained neural networks shows that the encoder develops a pretty abstract representation of the input sentence (see https://arxiv.org/pdf/1911.00317.pdf) and a large part of the translation actually already happens in the encoder (see https://arxiv.org/pdf/2003.09586.pdf)。
我想知道编码器的隐藏状态对于注意力网络有多大用处。当我研究注意力模型的结构时,我发现模型通常是这样的:
- x: 输入。
- h:编码器的隐藏状态,前馈给下一个 编码器的隐藏状态。
- s: 解码器的隐藏状态 所有编码器隐藏状态的加权和作为输入和提要 转发到下一个解码器的隐藏状态。
- y: 输出。
对于像翻译这样的过程,为什么编码器的隐藏状态前馈或存在很重要?我们已经知道下一个 x 会是什么。因此,输入的顺序不一定对输出的顺序重要,从先前的输入中记住的内容也不一定重要,因为注意力模型会同时查看所有输入。难道你不能直接在 x 的嵌入上使用注意力吗?
谢谢!
你可以很容易地尝试,看看你会得到很糟糕的结果。即使你在输入嵌入中添加了一些位置编码,结果也会很糟糕。
顺序很重要。句子:
- John 喜欢 Marry。
- 结婚爱约翰。
确实有不一样的意思。此外,顺序并不是您从编码器获得的唯一信息。编码器也确实输入消歧:词可以是同音的,例如"train"(参见https://arxiv.org/pdf/1908.11771.pdf). Also, the probing of trained neural networks shows that the encoder develops a pretty abstract representation of the input sentence (see https://arxiv.org/pdf/1911.00317.pdf) and a large part of the translation actually already happens in the encoder (see https://arxiv.org/pdf/2003.09586.pdf)。