
What, if any, are the alignment requirements for the atomic intrinsic functions?

Delphi 移动目标的原子操作建立在 AtomicXXX 系列内部函数之上。 documentation 表示:

Because the Delphi mobile compilers do not support a built-in assembler, the System unit provides four atomic intrinsic functions that provide a way to atomically exchange, compare and exchange, increment, and decrement memory values.


提供原子操作的其他 RTL 函数,例如TInterlocked class 的静态 class 方法建立在这四个内部函数之上。

对于面向 ARMv7 的移动编译器,这四个原子内在函数是否有任何对齐要求?如果有,它们是什么?


顺便说一句,XE8 documentation for intrinsic functions 指出桌面编译器不支持这些原子内在函数。这是不正确的——桌面编译器支持这些内部函数。


  a: integer;


3e: 2201        movs    r2, #1
40: 900c        str r0, [sp, #48]   ; 0x30
42: 910b        str r1, [sp, #44]   ; 0x2c
44: 920a        str r2, [sp, #40]   ; 0x28
46: 980b        ldr r0, [sp, #44]   ; 0x2c
48: e850 1f00   ldrex   r1, [r0]
4c: 9a0a        ldr r2, [sp, #40]   ; 0x28
4e: 4411        add r1, r2
50: e840 1300   strex   r3, r1, [r0]
54: 2b00        cmp r3, #0
56: d1f6        bne.n   46 <_NativeMain+0x46>


如果我正确地解释了 community.arm.com 处的信息,则需要的对齐方式是针对 4 字节操作的 DWORD 对齐 (ldrd/strd) 和针对 8 字节操作的 QWORD 对齐。



68: 980f        ldr r0, [sp, #60]   ; 0x3c
6a: e850 1f00   ldrex   r1, [r0]
6e: 9a0e        ldr r2, [sp, #56]   ; 0x38
70: 1a89        subs    r1, r1, r2
72: e840 1300   strex   r3, r1, [r0]
76: 2b00        cmp r3, #0
78: d1f6        bne.n   68 <_NativeMain+0x68>


82: 990f        ldr r1, [sp, #60]   ; 0x3c
84: 6008        str r0, [r1, #0]
86: 4873        ldr r0, [pc, #460]  ; (254 <_NativeMain+0x254>)
88: 9a10        ldr r2, [sp, #64]   ; 0x40
8a: 5880        ldr r0, [r0, r2]
8c: 6800        ldr r0, [r0, #0]
8e: f3bf 8f5b   dmb ish
92: 900d        str r0, [sp, #52]   ; 0x34
94: 980f        ldr r0, [sp, #60]   ; 0x3c
96: e850 1f00   ldrex   r1, [r0]
9a: 9b0d        ldr r3, [sp, #52]   ; 0x34
9c: e840 3200   strex   r2, r3, [r0]
a0: 2a00        cmp r2, #0
a2: 910c        str r1, [sp, #48]   ; 0x30
a4: d1f6        bne.n   94 <_NativeMain+0x94>

AtomicCmpExchange(a, 42, 17);

ae: 990f        ldr r1, [sp, #60]   ; 0x3c
b0: 6008        str r0, [r1, #0]
b2: f3bf 8f5b   dmb ish
b6: 202a        movs    r0, #42 ; 0x2a
b8: 2211        movs    r2, #17
ba: 900b        str r0, [sp, #44]   ; 0x2c
bc: 920a        str r2, [sp, #40]   ; 0x28
be: 980f        ldr r0, [sp, #60]   ; 0x3c
c0: e850 1f00   ldrex   r1, [r0]
c4: 9a0a        ldr r2, [sp, #40]   ; 0x28
c6: 4291        cmp r1, r2
c8: d105        bne.n   d6 <_NativeMain+0xd6>
ca: 990b        ldr r1, [sp, #44]   ; 0x2c
cc: 9a0f        ldr r2, [sp, #60]   ; 0x3c
ce: e842 1000   strex   r0, r1, [r2]
d2: 2800        cmp r0, #0
d4: d1f3        bne.n   be <_NativeMain+0xbe>

原子性通常使用 LDREX 和 STREX(Load Exclusive / Store Exclusive 指令)实现。这些指令使用称为独占监视器的概念。查看: http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dht0008a/ch01s02s01.html 寻找 'Exclusives Reservation Granule'

因此您的对齐要求是特定于实现的,并且将由在您的硬件上实现的独占监控机制决定。我建议您查看 CPU/SoC 独占监视器部分的文档。

例如。 当使用内部监视器时,这些监视器通常在缓存级别(通常是 L2)实现。每个缓存行都会有一个监视器。

  • 因此您的原子数据应包含在单个缓存行中,对齐将遵循此要求
  • 如果多个原子占用同一个缓存行,当一个原子处于独占状态时,同一缓存行中的所有其他原子都将处于假独占状态。这将导致锁定效率低下。使高速缓存行对齐原子可避免此问题。 注意:同一缓存行中的多个原子仍然可以工作,但效率较低