如果有的话,原子内在函数的对齐要求是什么?

What, if any, are the alignment requirements for the atomic intrinsic functions?

Delphi 移动目标的原子操作建立在 AtomicXXX 系列内部函数之上。 documentation 表示:

Because the Delphi mobile compilers do not support a built-in assembler, the System unit provides four atomic intrinsic functions that provide a way to atomically exchange, compare and exchange, increment, and decrement memory values.

这四个函数是:

提供原子操作的其他 RTL 函数,例如TInterlocked class 的静态 class 方法建立在这四个内部函数之上。

对于面向 ARMv7 的移动编译器,这四个原子内在函数是否有任何对齐要求?如果有,它们是什么?

文档未列出任何此类要求。但是,众所周知,文档是不准确的,我没有信心将没有任何规定的要求作为不存在此类要求的决定性证据。

顺便说一句,XE8 documentation for intrinsic functions 指出桌面编译器不支持这些原子内在函数。这是不正确的——桌面编译器支持这些内部函数。

XE8编译

var 
  a: integer;

AtomicIncrement(a);

3e: 2201        movs    r2, #1
40: 900c        str r0, [sp, #48]   ; 0x30
42: 910b        str r1, [sp, #44]   ; 0x2c
44: 920a        str r2, [sp, #40]   ; 0x28
46: 980b        ldr r0, [sp, #44]   ; 0x2c
48: e850 1f00   ldrex   r1, [r0]
4c: 9a0a        ldr r2, [sp, #40]   ; 0x28
4e: 4411        add r1, r2
50: e840 1300   strex   r3, r1, [r0]
54: 2b00        cmp r3, #0
56: d1f6        bne.n   46 <_NativeMain+0x46>

所以原子性是使用ldrex/strex实现的。

如果我正确地解释了 community.arm.com 处的信息,则需要的对齐方式是针对 4 字节操作的 DWORD 对齐 (ldrd/strd) 和针对 8 字节操作的 QWORD 对齐。

其他原子功能以类似的方式实现,因此应适用相同的要求。

AtomicDecrement(a);

68: 980f        ldr r0, [sp, #60]   ; 0x3c
6a: e850 1f00   ldrex   r1, [r0]
6e: 9a0e        ldr r2, [sp, #56]   ; 0x38
70: 1a89        subs    r1, r1, r2
72: e840 1300   strex   r3, r1, [r0]
76: 2b00        cmp r3, #0
78: d1f6        bne.n   68 <_NativeMain+0x68>

AtomicExchange(a,b);

82: 990f        ldr r1, [sp, #60]   ; 0x3c
84: 6008        str r0, [r1, #0]
86: 4873        ldr r0, [pc, #460]  ; (254 <_NativeMain+0x254>)
88: 9a10        ldr r2, [sp, #64]   ; 0x40
8a: 5880        ldr r0, [r0, r2]
8c: 6800        ldr r0, [r0, #0]
8e: f3bf 8f5b   dmb ish
92: 900d        str r0, [sp, #52]   ; 0x34
94: 980f        ldr r0, [sp, #60]   ; 0x3c
96: e850 1f00   ldrex   r1, [r0]
9a: 9b0d        ldr r3, [sp, #52]   ; 0x34
9c: e840 3200   strex   r2, r3, [r0]
a0: 2a00        cmp r2, #0
a2: 910c        str r1, [sp, #48]   ; 0x30
a4: d1f6        bne.n   94 <_NativeMain+0x94>

AtomicCmpExchange(a, 42, 17);

ae: 990f        ldr r1, [sp, #60]   ; 0x3c
b0: 6008        str r0, [r1, #0]
b2: f3bf 8f5b   dmb ish
b6: 202a        movs    r0, #42 ; 0x2a
b8: 2211        movs    r2, #17
ba: 900b        str r0, [sp, #44]   ; 0x2c
bc: 920a        str r2, [sp, #40]   ; 0x28
be: 980f        ldr r0, [sp, #60]   ; 0x3c
c0: e850 1f00   ldrex   r1, [r0]
c4: 9a0a        ldr r2, [sp, #40]   ; 0x28
c6: 4291        cmp r1, r2
c8: d105        bne.n   d6 <_NativeMain+0xd6>
ca: 990b        ldr r1, [sp, #44]   ; 0x2c
cc: 9a0f        ldr r2, [sp, #60]   ; 0x3c
ce: e842 1000   strex   r0, r1, [r2]
d2: 2800        cmp r0, #0
d4: d1f3        bne.n   be <_NativeMain+0xbe>

原子性通常使用 LDREX 和 STREX(Load Exclusive / Store Exclusive 指令)实现。这些指令使用称为独占监视器的概念。查看: http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dht0008a/ch01s02s01.html 寻找 'Exclusives Reservation Granule'

因此您的对齐要求是特定于实现的,并且将由在您的硬件上实现的独占监控机制决定。我建议您查看 CPU/SoC 独占监视器部分的文档。

例如。 当使用内部监视器时,这些监视器通常在缓存级别(通常是 L2)实现。每个缓存行都会有一个监视器。

  • 因此您的原子数据应包含在单个缓存行中,对齐将遵循此要求
  • 如果多个原子占用同一个缓存行,当一个原子处于独占状态时,同一缓存行中的所有其他原子都将处于假独占状态。这将导致锁定效率低下。使高速缓存行对齐原子可避免此问题。 注意:同一缓存行中的多个原子仍然可以工作,但效率较低