注意机制可以应用于前馈神经网络等结构吗?

Can the attentional mechanism be applied to structures like feedforward neural networks?

最近学习了decoder-encoder网络和attention机制,发现很多论文和博客都在RNN网络上实现了attention机制

我感兴趣的是其他网络是否可以包含注意力 mechanisms.For 例如,编码器是前馈神经网络,解码器是 RNN。没有时间序列的前馈神经网络可以使用注意机制吗?可以的话请提前给我一些suggestions.Thank你!

是的,可以对其他前馈网络使用注意力/自注意力/多头注意力机制。也可以在基于 CNN 的架构中使用注意力机制,即在预测图像的另一部分时应该更多地关注图像的哪一部分。注意力背后的邮件思想是在预测特定输出时赋予所有其他输入权重,或者我们如何将句子中的单词关联起来以解决 NLP 问题。您可以阅读真正著名的 Transformer 架构,该架构基于自注意力并且其中没有 RNN。 要了解不同类型的注意力机制的要点,您可以阅读 this blog.

一般来说,前馈网络将特征视为独立的;卷积网络关注相对位置和接近度; RNN 和 LSTM 具有内存限制,并且倾向于向一个方向读取。

与这些相反,attention 和 transformer 可以从句子的较远部分抓取有关单词的上下文,无论是在单词出现之前还是之后,以便对信息进行编码以帮助我们理解单词及其作用在叫句的系统里。

这里有一个很好的带有注意力机制的前馈网络模型:

https://arxiv.org/pdf/1512.08756.pdf

希望对你有用