attention机制是真的attention还是再回过头看一下memory?

Is attention mechanism really attention or just looking back at memory again?

在阅读注意力机制时,我对注意力这个词感到困惑。是不是和我们通常定义的attention性质一样?

例如在机器翻译任务中,直觉上这等同于输出一个翻译后的单词,然后回过头来遍历文本的所有内部记忆,以决定接下来要生成哪个单词。这似乎是一种浪费,根本不是人类正在做的事情。事实上,它更类似于内存访问,而不是注意力,在我看来这有点用词不当(更多内容见下文)。尽管如此,这并没有阻止注意力机制变得非常流行并且在许多任务上表现良好。

恕我直言,Attention Is All You Need 中介绍的注意力与我们大脑用作注意力机制的机制非常相似。

我们的大脑中有一个名为 LGN 的东西,负责过滤掉手头任务的不必要信息。例如,如果我开始寻找我的钥匙,我的大脑就会减少对银色或金色以外颜色(希望如此)的物体的关注。现在,我不知道人脑的更高层次的注意力机制。然而,有一点很清楚,即信息在注意力之前通过每一层并以神经活动的形式表示。

当您将世界当前状态的表示提供给您的人工模型时,信息将表示为张量,同样,注意力可以让您看到做出最佳决策所需的内容(类似于寻找钥匙).