"self-attention mechanism" 和 "full-connection" 层有什么区别?

what's the difference between "self-attention mechanism" and "full-connection" layer?

我对这两种结构感到困惑。理论上,它们的输出都连接到它们的输入。是什么魔法让'self-attention mechanism'比全连接层更强大?

忽略规范化、偏差等细节,全连接网络 fixed-weights:

f(x) = (Wx)

其中 W 在训练中学习,并在推理中固定。

Self-attention层是动态的,随着它的变化而改变权重:

attn(x) = (Wx)
f(x) = (attn(x) * x)

同样,这忽略了很多细节,但是对于不同的应用程序有许多不同的实现,您真的应该检查一篇论文。