如何强制 NASM 将 [1 + rax*2] 编码为 disp32 + index*2 而不是 disp8 + base + index?
How to force NASM to encode [1 + rax*2] as disp32 + index*2 instead of disp8 + base + index?
要高效地执行 x = x*10 + 1
,使用
可能是最佳选择
lea eax, [rax + rax*4] ; x*=5
lea eax, [1 + rax*2] ; x = x*2 + 1
on modern Intel CPUs, e.g. 3 cycles vs. 1 on Sandybridge-family, so disp32 + index*2
is faster than disp8 + base + index*1
on SnB-family, i.e. most of the mainstream x86 CPUs we care about optimizing for. (This mostly only applies to LEA, not loads/stores, because LEA runs on ALU execution units, not the AGUs in most modern x86 CPUs.) AMD CPUs have slower LEA with 3 components or scale > 1
(http://agner.org/optimize/)
但是 NASM 和 YASM 将通过对第二个 LEA 使用 [1 + rax + rax*1]
来优化代码大小,它只需要一个 disp8 而不是 disp32。 (寻址模式总是有一个基址寄存器或一个 disp32)。
即他们总是将 reg*2
拆分为 base+index
,因为这对于代码大小来说永远不会更糟。
我可以强制使用带有 lea eax, [dword 1 + rax*2]
的 disp32,但这不会阻止 NASM 或 YASM 拆分寻址模式。 NASM 手册似乎没有记录在比例因子上使用 the strict
keyword 的方法,[1 + strict rax*2]
也没有 assemble。 有没有办法使用 strict
或其他一些语法来强制对寻址模式进行所需的编码?
nasm -O0
禁用优化不起作用。显然,它只控制多通道分支位移优化,而不是 all 优化 NASM。当然,您不想一开始就对整个源文件执行此操作,即使它确实有效。我仍然得到
8d 84 00 01 00 00 00 lea eax,[rax+rax*1+0x1]
我能想到的唯一解决方法是使用 db
手动编码。这很不方便。作为记录,手动编码为:
db 0x8d, 0x04, 0x45 ; opcode, modrm, SIB for lea eax, [disp32 + rax*2]
dd 1 ; disp32
比例因子编码在 SIB 字节的高 2 位中。我 assembled lea eax, [dword 1 + rax*4]
来获取正确寄存器的机器代码,因为 NASM 的优化只适用于 *2
。 SIB 是 0x85
,递减字节顶部的 2 位字段将比例因子从 4 减少到 2。
但问题是:如何以易于阅读的方式编写它,以便于更改寄存器,并让 NASM 为您编码寻址模式?(我想一个巨大的宏可以通过文本处理和手动 db
编码来做到这一点,但这并不是我正在寻找的答案。我现在实际上不需要任何东西,我主要想要知道 NASM 或 YASM 是否具有强制执行此操作的语法。)
我知道的其他优化,比如 mov rax, 1
汇编成 5 字节 mov eax,1
在所有 CPU 上都是纯粹的胜利,除非你想要更长的指令来获得没有 NOP 的填充,and can be disabled 使用 mov rax, strict dword 1
获取 7 字节符号扩展编码,或 strict qword
获取 10 字节 imm64。
gas 不执行此操作或大多数其他优化(仅立即数和分支位移的大小):lea 1(,%rax,2), %eax
assembles 到
8d 04 45 01 00 00 00 lea eax,[rax*2+0x1]
,.intel_syntax noprefix
版本也一样。
MASM 或其他 assemblers 的答案也很有趣。
Similarly, NASM will split [eax*2]
into [eax+eax]
because that allows the offset field to be absent and space to be saved; in fact, it will also split [eax*2+offset]
into [eax+eax+offset]
.
You can combat this behaviour by the use of the NOSPLIT
keyword: [nosplit eax*2]
will force [eax*2+0]
to be generated literally.
[nosplit eax*1]
also has the same effect. In another way, a split EA form [0, eax*2]
can be used, too. However, NOSPLIT
in [nosplit eax+eax]
will be ignored because user's intention here is considered as [eax+eax]
.
lea eax, [NOSPLIT 1+rax*2]
lea eax, [1+rax*2]
00000000 8D044501000000 lea eax,[rax*2+0x1]
00000007 8D440001 lea eax,[rax+rax+0x1]
要高效地执行 x = x*10 + 1
,使用
lea eax, [rax + rax*4] ; x*=5
lea eax, [1 + rax*2] ; x = x*2 + 1
disp32 + index*2
is faster than disp8 + base + index*1
on SnB-family, i.e. most of the mainstream x86 CPUs we care about optimizing for. (This mostly only applies to LEA, not loads/stores, because LEA runs on ALU execution units, not the AGUs in most modern x86 CPUs.) AMD CPUs have slower LEA with 3 components or scale > 1
(http://agner.org/optimize/)
但是 NASM 和 YASM 将通过对第二个 LEA 使用 [1 + rax + rax*1]
来优化代码大小,它只需要一个 disp8 而不是 disp32。 (寻址模式总是有一个基址寄存器或一个 disp32)。
即他们总是将 reg*2
拆分为 base+index
,因为这对于代码大小来说永远不会更糟。
我可以强制使用带有 lea eax, [dword 1 + rax*2]
的 disp32,但这不会阻止 NASM 或 YASM 拆分寻址模式。 NASM 手册似乎没有记录在比例因子上使用 the strict
keyword 的方法,[1 + strict rax*2]
也没有 assemble。 有没有办法使用 strict
或其他一些语法来强制对寻址模式进行所需的编码?
nasm -O0
禁用优化不起作用。显然,它只控制多通道分支位移优化,而不是 all 优化 NASM。当然,您不想一开始就对整个源文件执行此操作,即使它确实有效。我仍然得到
8d 84 00 01 00 00 00 lea eax,[rax+rax*1+0x1]
我能想到的唯一解决方法是使用 db
手动编码。这很不方便。作为记录,手动编码为:
db 0x8d, 0x04, 0x45 ; opcode, modrm, SIB for lea eax, [disp32 + rax*2]
dd 1 ; disp32
比例因子编码在 SIB 字节的高 2 位中。我 assembled lea eax, [dword 1 + rax*4]
来获取正确寄存器的机器代码,因为 NASM 的优化只适用于 *2
。 SIB 是 0x85
,递减字节顶部的 2 位字段将比例因子从 4 减少到 2。
但问题是:如何以易于阅读的方式编写它,以便于更改寄存器,并让 NASM 为您编码寻址模式?(我想一个巨大的宏可以通过文本处理和手动 db
编码来做到这一点,但这并不是我正在寻找的答案。我现在实际上不需要任何东西,我主要想要知道 NASM 或 YASM 是否具有强制执行此操作的语法。)
我知道的其他优化,比如 mov rax, 1
汇编成 5 字节 mov eax,1
在所有 CPU 上都是纯粹的胜利,除非你想要更长的指令来获得没有 NOP 的填充,and can be disabled 使用 mov rax, strict dword 1
获取 7 字节符号扩展编码,或 strict qword
获取 10 字节 imm64。
gas 不执行此操作或大多数其他优化(仅立即数和分支位移的大小):lea 1(,%rax,2), %eax
assembles 到
8d 04 45 01 00 00 00 lea eax,[rax*2+0x1]
,.intel_syntax noprefix
版本也一样。
MASM 或其他 assemblers 的答案也很有趣。
Similarly, NASM will split
[eax*2]
into[eax+eax]
because that allows the offset field to be absent and space to be saved; in fact, it will also split[eax*2+offset]
into[eax+eax+offset]
.
You can combat this behaviour by the use of theNOSPLIT
keyword:[nosplit eax*2]
will force[eax*2+0]
to be generated literally.
[nosplit eax*1]
also has the same effect. In another way, a split EA form[0, eax*2]
can be used, too. However,NOSPLIT
in[nosplit eax+eax]
will be ignored because user's intention here is considered as[eax+eax]
.
lea eax, [NOSPLIT 1+rax*2]
lea eax, [1+rax*2]
00000000 8D044501000000 lea eax,[rax*2+0x1]
00000007 8D440001 lea eax,[rax+rax+0x1]