为什么自然语言处理中的 Transformer 需要一堆编码器？

Why do Transformers in Natural Language Processing need a stack of encoders?

我正在关注这个关于变形金刚的博客

http://jalammar.github.io/illustrated-transformer/

我唯一不明白的是为什么需要一堆编码器或解码器。我知道多头注意力层捕获问题的不同表示空间。我不明白为什么需要垂直堆叠编码器和解码器。一个 encoder/decoder 层行不通吗？

堆栈层使任何深度学习架构变得强大，使用单一的 encoder/decoder 注意力将无法捕获对整个语言建模或在如此复杂的任务上存档高精度所需的复杂性语言翻译，使用 encoder/decoder 的堆栈允许网络提取层次特征并对复杂问题建模。