对于图像或序列,转换器使用的属性是什么?

For an image or sequence, what is the properties transformers use?

今天老师问我一个问题:他说CNN是利用图像或矩阵的平移不变性。那么 Transformer 使用的属性是什么???

与卷积相比,变压器有两个主要特性使其更具吸引力:

  1. 变压器是排列等变的。这使得转换器对于集合预测非常有用。对于顺序很重要的序列和图像,使用位置 encoding/embedding。
  2. 变压器的感受野是整个输入(!),而不是卷积层非常有限的感受野。

见秒。 3和图。 3 个:
Shir Amir、Yossi Gandelsman、Shai Bagon 和 Tali DekelDeep ViT Features as Dense Visual Descriptors(arXiv 2021)。