"self-attention mechanism" 和 "full-connection" 层有什么区别?
what's the difference between "self-attention mechanism" and "full-connection" layer?
我对这两种结构感到困惑。理论上,它们的输出都连接到它们的输入。是什么魔法让'self-attention mechanism'比全连接层更强大?
忽略规范化、偏差等细节,全连接网络 fixed-weights:
f(x) = (Wx)
其中 W
在训练中学习,并在推理中固定。
Self-attention层是动态的,随着它的变化而改变权重:
attn(x) = (Wx)
f(x) = (attn(x) * x)
同样,这忽略了很多细节,但是对于不同的应用程序有许多不同的实现,您真的应该检查一篇论文。
我对这两种结构感到困惑。理论上,它们的输出都连接到它们的输入。是什么魔法让'self-attention mechanism'比全连接层更强大?
忽略规范化、偏差等细节,全连接网络 fixed-weights:
f(x) = (Wx)
其中 W
在训练中学习,并在推理中固定。
Self-attention层是动态的,随着它的变化而改变权重:
attn(x) = (Wx)
f(x) = (attn(x) * x)
同样,这忽略了很多细节,但是对于不同的应用程序有许多不同的实现,您真的应该检查一篇论文。