如果有的话,原子内在函数的对齐要求是什么?
What, if any, are the alignment requirements for the atomic intrinsic functions?
Delphi 移动目标的原子操作建立在 AtomicXXX
系列内部函数之上。 documentation 表示:
Because the Delphi mobile compilers do not support a built-in assembler, the System unit provides four atomic intrinsic functions that provide a way to atomically exchange, compare and exchange, increment, and decrement memory values.
这四个函数是:
提供原子操作的其他 RTL 函数,例如TInterlocked
class 的静态 class 方法建立在这四个内部函数之上。
对于面向 ARMv7 的移动编译器,这四个原子内在函数是否有任何对齐要求?如果有,它们是什么?
文档未列出任何此类要求。但是,众所周知,文档是不准确的,我没有信心将没有任何规定的要求作为不存在此类要求的决定性证据。
顺便说一句,XE8 documentation for intrinsic functions 指出桌面编译器不支持这些原子内在函数。这是不正确的——桌面编译器支持这些内部函数。
XE8编译
var
a: integer;
AtomicIncrement(a);
至
3e: 2201 movs r2, #1
40: 900c str r0, [sp, #48] ; 0x30
42: 910b str r1, [sp, #44] ; 0x2c
44: 920a str r2, [sp, #40] ; 0x28
46: 980b ldr r0, [sp, #44] ; 0x2c
48: e850 1f00 ldrex r1, [r0]
4c: 9a0a ldr r2, [sp, #40] ; 0x28
4e: 4411 add r1, r2
50: e840 1300 strex r3, r1, [r0]
54: 2b00 cmp r3, #0
56: d1f6 bne.n 46 <_NativeMain+0x46>
所以原子性是使用ldrex/strex实现的。
如果我正确地解释了 community.arm.com 处的信息,则需要的对齐方式是针对 4 字节操作的 DWORD 对齐 (ldrd/strd) 和针对 8 字节操作的 QWORD 对齐。
其他原子功能以类似的方式实现,因此应适用相同的要求。
AtomicDecrement(a);
68: 980f ldr r0, [sp, #60] ; 0x3c
6a: e850 1f00 ldrex r1, [r0]
6e: 9a0e ldr r2, [sp, #56] ; 0x38
70: 1a89 subs r1, r1, r2
72: e840 1300 strex r3, r1, [r0]
76: 2b00 cmp r3, #0
78: d1f6 bne.n 68 <_NativeMain+0x68>
AtomicExchange(a,b);
82: 990f ldr r1, [sp, #60] ; 0x3c
84: 6008 str r0, [r1, #0]
86: 4873 ldr r0, [pc, #460] ; (254 <_NativeMain+0x254>)
88: 9a10 ldr r2, [sp, #64] ; 0x40
8a: 5880 ldr r0, [r0, r2]
8c: 6800 ldr r0, [r0, #0]
8e: f3bf 8f5b dmb ish
92: 900d str r0, [sp, #52] ; 0x34
94: 980f ldr r0, [sp, #60] ; 0x3c
96: e850 1f00 ldrex r1, [r0]
9a: 9b0d ldr r3, [sp, #52] ; 0x34
9c: e840 3200 strex r2, r3, [r0]
a0: 2a00 cmp r2, #0
a2: 910c str r1, [sp, #48] ; 0x30
a4: d1f6 bne.n 94 <_NativeMain+0x94>
AtomicCmpExchange(a, 42, 17);
ae: 990f ldr r1, [sp, #60] ; 0x3c
b0: 6008 str r0, [r1, #0]
b2: f3bf 8f5b dmb ish
b6: 202a movs r0, #42 ; 0x2a
b8: 2211 movs r2, #17
ba: 900b str r0, [sp, #44] ; 0x2c
bc: 920a str r2, [sp, #40] ; 0x28
be: 980f ldr r0, [sp, #60] ; 0x3c
c0: e850 1f00 ldrex r1, [r0]
c4: 9a0a ldr r2, [sp, #40] ; 0x28
c6: 4291 cmp r1, r2
c8: d105 bne.n d6 <_NativeMain+0xd6>
ca: 990b ldr r1, [sp, #44] ; 0x2c
cc: 9a0f ldr r2, [sp, #60] ; 0x3c
ce: e842 1000 strex r0, r1, [r2]
d2: 2800 cmp r0, #0
d4: d1f3 bne.n be <_NativeMain+0xbe>
原子性通常使用 LDREX 和 STREX(Load Exclusive / Store Exclusive 指令)实现。这些指令使用称为独占监视器的概念。查看:
http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dht0008a/ch01s02s01.html
寻找 'Exclusives Reservation Granule'
因此您的对齐要求是特定于实现的,并且将由在您的硬件上实现的独占监控机制决定。我建议您查看 CPU/SoC 独占监视器部分的文档。
例如。
当使用内部监视器时,这些监视器通常在缓存级别(通常是 L2)实现。每个缓存行都会有一个监视器。
- 因此您的原子数据应包含在单个缓存行中,对齐将遵循此要求
- 如果多个原子占用同一个缓存行,当一个原子处于独占状态时,同一缓存行中的所有其他原子都将处于假独占状态。这将导致锁定效率低下。使高速缓存行对齐原子可避免此问题。 注意:同一缓存行中的多个原子仍然可以工作,但效率较低
Delphi 移动目标的原子操作建立在 AtomicXXX
系列内部函数之上。 documentation 表示:
Because the Delphi mobile compilers do not support a built-in assembler, the System unit provides four atomic intrinsic functions that provide a way to atomically exchange, compare and exchange, increment, and decrement memory values.
这四个函数是:
提供原子操作的其他 RTL 函数,例如TInterlocked
class 的静态 class 方法建立在这四个内部函数之上。
对于面向 ARMv7 的移动编译器,这四个原子内在函数是否有任何对齐要求?如果有,它们是什么?
文档未列出任何此类要求。但是,众所周知,文档是不准确的,我没有信心将没有任何规定的要求作为不存在此类要求的决定性证据。
顺便说一句,XE8 documentation for intrinsic functions 指出桌面编译器不支持这些原子内在函数。这是不正确的——桌面编译器支持这些内部函数。
XE8编译
var
a: integer;
AtomicIncrement(a);
至
3e: 2201 movs r2, #1
40: 900c str r0, [sp, #48] ; 0x30
42: 910b str r1, [sp, #44] ; 0x2c
44: 920a str r2, [sp, #40] ; 0x28
46: 980b ldr r0, [sp, #44] ; 0x2c
48: e850 1f00 ldrex r1, [r0]
4c: 9a0a ldr r2, [sp, #40] ; 0x28
4e: 4411 add r1, r2
50: e840 1300 strex r3, r1, [r0]
54: 2b00 cmp r3, #0
56: d1f6 bne.n 46 <_NativeMain+0x46>
所以原子性是使用ldrex/strex实现的。
如果我正确地解释了 community.arm.com 处的信息,则需要的对齐方式是针对 4 字节操作的 DWORD 对齐 (ldrd/strd) 和针对 8 字节操作的 QWORD 对齐。
其他原子功能以类似的方式实现,因此应适用相同的要求。
AtomicDecrement(a);
68: 980f ldr r0, [sp, #60] ; 0x3c
6a: e850 1f00 ldrex r1, [r0]
6e: 9a0e ldr r2, [sp, #56] ; 0x38
70: 1a89 subs r1, r1, r2
72: e840 1300 strex r3, r1, [r0]
76: 2b00 cmp r3, #0
78: d1f6 bne.n 68 <_NativeMain+0x68>
AtomicExchange(a,b);
82: 990f ldr r1, [sp, #60] ; 0x3c
84: 6008 str r0, [r1, #0]
86: 4873 ldr r0, [pc, #460] ; (254 <_NativeMain+0x254>)
88: 9a10 ldr r2, [sp, #64] ; 0x40
8a: 5880 ldr r0, [r0, r2]
8c: 6800 ldr r0, [r0, #0]
8e: f3bf 8f5b dmb ish
92: 900d str r0, [sp, #52] ; 0x34
94: 980f ldr r0, [sp, #60] ; 0x3c
96: e850 1f00 ldrex r1, [r0]
9a: 9b0d ldr r3, [sp, #52] ; 0x34
9c: e840 3200 strex r2, r3, [r0]
a0: 2a00 cmp r2, #0
a2: 910c str r1, [sp, #48] ; 0x30
a4: d1f6 bne.n 94 <_NativeMain+0x94>
AtomicCmpExchange(a, 42, 17);
ae: 990f ldr r1, [sp, #60] ; 0x3c
b0: 6008 str r0, [r1, #0]
b2: f3bf 8f5b dmb ish
b6: 202a movs r0, #42 ; 0x2a
b8: 2211 movs r2, #17
ba: 900b str r0, [sp, #44] ; 0x2c
bc: 920a str r2, [sp, #40] ; 0x28
be: 980f ldr r0, [sp, #60] ; 0x3c
c0: e850 1f00 ldrex r1, [r0]
c4: 9a0a ldr r2, [sp, #40] ; 0x28
c6: 4291 cmp r1, r2
c8: d105 bne.n d6 <_NativeMain+0xd6>
ca: 990b ldr r1, [sp, #44] ; 0x2c
cc: 9a0f ldr r2, [sp, #60] ; 0x3c
ce: e842 1000 strex r0, r1, [r2]
d2: 2800 cmp r0, #0
d4: d1f3 bne.n be <_NativeMain+0xbe>
原子性通常使用 LDREX 和 STREX(Load Exclusive / Store Exclusive 指令)实现。这些指令使用称为独占监视器的概念。查看: http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.dht0008a/ch01s02s01.html 寻找 'Exclusives Reservation Granule'
因此您的对齐要求是特定于实现的,并且将由在您的硬件上实现的独占监控机制决定。我建议您查看 CPU/SoC 独占监视器部分的文档。
例如。 当使用内部监视器时,这些监视器通常在缓存级别(通常是 L2)实现。每个缓存行都会有一个监视器。
- 因此您的原子数据应包含在单个缓存行中,对齐将遵循此要求
- 如果多个原子占用同一个缓存行,当一个原子处于独占状态时,同一缓存行中的所有其他原子都将处于假独占状态。这将导致锁定效率低下。使高速缓存行对齐原子可避免此问题。 注意:同一缓存行中的多个原子仍然可以工作,但效率较低