对于图像或序列，转换器使用的属性是什么？

For an image or sequence, what is the properties transformers use?

今天老师问我一个问题：他说CNN是利用图像或矩阵的平移不变性。那么 Transformer 使用的属性是什么？？？

与卷积相比，变压器有两个主要特性使其更具吸引力：

变压器是排列等变的。这使得转换器对于集合预测非常有用。对于顺序很重要的序列和图像，使用位置 encoding/embedding。
变压器的感受野是整个输入（！），而不是卷积层非常有限的感受野。

见秒。 3和图。 3 个：
Shir Amir、Yossi Gandelsman、Shai Bagon 和 Tali DekelDeep ViT Features as Dense Visual Descriptors（arXiv 2021）。