为什么 objdump 的汇编编码会有所不同?
Why does the assembly encoding of objdump vary?
我正在阅读这篇关于位置无关代码的文章article,我遇到了这个函数的汇编列表。
0000043c <ml_func>:
43c: 55 push ebp
43d: 89 e5 mov ebp,esp
43f: e8 16 00 00 00 call 45a <__i686.get_pc_thunk.cx>
444: 81 c1 b0 1b 00 00 add ecx,0x1bb0
44a: 8b 81 f0 ff ff ff mov eax,DWORD PTR [ecx-0x10]
450: 8b 00 mov eax,DWORD PTR [eax]
452: 03 45 08 add eax,DWORD PTR [ebp+0x8]
455: 03 45 0c add eax,DWORD PTR [ebp+0xc]
458: 5d pop ebp
459: c3 ret
0000045a <__i686.get_pc_thunk.cx>:
45a: 8b 0c 24 mov ecx,DWORD PTR [esp]
45d: c3 ret
然而,在我的机器上 (gcc-7.3.0, Ubuntu 18.04 x86_64),我得到的结果略有不同:
0000044d <ml_func>:
44d: 55 push %ebp
44e: 89 e5 mov %esp,%ebp
450: e8 29 00 00 00 call 47e <__x86.get_pc_thunk.ax>
455: 05 ab 1b 00 00 add [=11=]x1bab,%eax
45a: 8b 90 f0 ff ff ff mov -0x10(%eax),%edx
460: 8b 0a mov (%edx),%ecx
462: 8b 55 08 mov 0x8(%ebp),%edx
465: 01 d1 add %edx,%ecx
467: 8b 90 f0 ff ff ff mov -0x10(%eax),%edx
46d: 89 0a mov %ecx,(%edx)
46f: 8b 80 f0 ff ff ff mov -0x10(%eax),%eax
475: 8b 10 mov (%eax),%edx
477: 8b 45 0c mov 0xc(%ebp),%eax
47a: 01 d0 add %edx,%eax
47c: 5d pop %ebp
47d: c3 ret
我发现的主要区别是 mov
指令的语义。在上面的列表中,mov ebp,esp
实际上将esp
移动到ebp
,而在下面的列表中,mov %esp,%ebp
做了同样的事情,只是操作数的顺序不同。
这很令人困惑,即使我必须手写汇编代码也是如此。总而言之,我的问题是(1)为什么我对相同的指令有不同的汇编表示,以及(2)在编写汇编代码时我应该使用哪一个(例如 __asm(:::);
)
obdjump
默认为 -Matt
AT&T 语法(就像你的第二个代码块)。参见 att vs. intel-syntax. The tag wikis have some info about the syntax differences: https://whosebug.com/tags/att/info vs. https://whosebug.com/tags/intel-syntax/info
这两种语法都有相同的限制,由机器本身可以做什么以及机器代码中可编码的内容所强加。它们只是在文本中表达的不同方式。
对 Intel 语法使用 objdump -d -Mintel
。我在我的 .bashrc
中使用 alias disas='objdump -drwC -Mintel'
,所以我可以 disas foo.o
并获得我想要的格式,并打印重定位(对于理解non-linked .o
),没有 line-wrapping 用于长指令,并且 C++ 符号名称已删除。
在内联汇编中,您可以使用任何一种语法,只要它符合编译器的预期。默认是 AT&T,这是我推荐使用的与 clang 兼容的设置。也许有办法,但 clang 的工作方式与 -masm=intel
.
的 GCC 不同
此外,AT&T 基本上是 x86 上 GNU C 内联 asm 的标准,这意味着您的代码不需要特殊的构建选项即可工作。
但是您可以使用 gcc -masm=intel
来编译在 asm
语句中使用 Intel 语法的源文件。如果你不关心 clang,这对你自己使用来说很好。
如果您正在为 header 编写代码,您 可以 使用方言替代方案使其在 AT&T 和 Intel 语法之间可移植,至少对于海湾合作委员会:
static inline
void atomic_inc(volatile int *p) {
// use __asm__ instead of asm in headers, so it works even with -std=c11 instead of gnu11
__asm__("lock {addl , %0 | add %0, 1}": "+m"(*p));
// TODO: flag output for return value?
// maybe doesn't need to be asm volatile; compilers know that modifying pointed-to memory is a visible side-effect unless it's a local that fully optimizes away.
// If you want this to work as a memory barrier, use a `"memory"` clobber to stop compile-time memory reordering. The lock prefix provides a runtime full barrier
}
gcc/clang on the Godbolt compiler explorer.
的 source+asm 输出
使用 g++ -O3
(默认或 -masm=att
),我们得到
atomic_inc(int volatile*):
lock addl , (%rdi) # operand-size is from my explicit addl suffix
ret
用g++ -O3 -masm=intel
,我们得到
atomic_inc(int volatile*):
lock add DWORD PTR [rdi], 1 # operand-size came from the %0 expansion
ret
clang 适用于 AT&T 版本,但在 -masm=intel
(或暗示的 -mllvm --x86-asm-syntax=intel
)时失败,因为这显然仅适用于代码由 LLVM 发出,而不是 front-end 如何填充 asm 模板。
clang 错误信息是:
<source>:4:13: error: unknown use of instruction mnemonic without a size suffix
__asm__("lock {addl , %0 | add %0, 1}": "+m"(*p));
^
<inline asm>:1:2: note: instantiated into assembly here
lock add (%rdi), 1
^
1 error generated.
它选择了 "Intel" 替代语法,但仍然使用 AT&T 内存操作数填充模板。
我正在阅读这篇关于位置无关代码的文章article,我遇到了这个函数的汇编列表。
0000043c <ml_func>:
43c: 55 push ebp
43d: 89 e5 mov ebp,esp
43f: e8 16 00 00 00 call 45a <__i686.get_pc_thunk.cx>
444: 81 c1 b0 1b 00 00 add ecx,0x1bb0
44a: 8b 81 f0 ff ff ff mov eax,DWORD PTR [ecx-0x10]
450: 8b 00 mov eax,DWORD PTR [eax]
452: 03 45 08 add eax,DWORD PTR [ebp+0x8]
455: 03 45 0c add eax,DWORD PTR [ebp+0xc]
458: 5d pop ebp
459: c3 ret
0000045a <__i686.get_pc_thunk.cx>:
45a: 8b 0c 24 mov ecx,DWORD PTR [esp]
45d: c3 ret
然而,在我的机器上 (gcc-7.3.0, Ubuntu 18.04 x86_64),我得到的结果略有不同:
0000044d <ml_func>:
44d: 55 push %ebp
44e: 89 e5 mov %esp,%ebp
450: e8 29 00 00 00 call 47e <__x86.get_pc_thunk.ax>
455: 05 ab 1b 00 00 add [=11=]x1bab,%eax
45a: 8b 90 f0 ff ff ff mov -0x10(%eax),%edx
460: 8b 0a mov (%edx),%ecx
462: 8b 55 08 mov 0x8(%ebp),%edx
465: 01 d1 add %edx,%ecx
467: 8b 90 f0 ff ff ff mov -0x10(%eax),%edx
46d: 89 0a mov %ecx,(%edx)
46f: 8b 80 f0 ff ff ff mov -0x10(%eax),%eax
475: 8b 10 mov (%eax),%edx
477: 8b 45 0c mov 0xc(%ebp),%eax
47a: 01 d0 add %edx,%eax
47c: 5d pop %ebp
47d: c3 ret
我发现的主要区别是 mov
指令的语义。在上面的列表中,mov ebp,esp
实际上将esp
移动到ebp
,而在下面的列表中,mov %esp,%ebp
做了同样的事情,只是操作数的顺序不同。
这很令人困惑,即使我必须手写汇编代码也是如此。总而言之,我的问题是(1)为什么我对相同的指令有不同的汇编表示,以及(2)在编写汇编代码时我应该使用哪一个(例如 __asm(:::);
)
obdjump
默认为 -Matt
AT&T 语法(就像你的第二个代码块)。参见 att vs. intel-syntax. The tag wikis have some info about the syntax differences: https://whosebug.com/tags/att/info vs. https://whosebug.com/tags/intel-syntax/info
这两种语法都有相同的限制,由机器本身可以做什么以及机器代码中可编码的内容所强加。它们只是在文本中表达的不同方式。
对 Intel 语法使用 objdump -d -Mintel
。我在我的 .bashrc
中使用 alias disas='objdump -drwC -Mintel'
,所以我可以 disas foo.o
并获得我想要的格式,并打印重定位(对于理解non-linked .o
),没有 line-wrapping 用于长指令,并且 C++ 符号名称已删除。
在内联汇编中,您可以使用任何一种语法,只要它符合编译器的预期。默认是 AT&T,这是我推荐使用的与 clang 兼容的设置。也许有办法,但 clang 的工作方式与 -masm=intel
.
此外,AT&T 基本上是 x86 上 GNU C 内联 asm 的标准,这意味着您的代码不需要特殊的构建选项即可工作。
但是您可以使用 gcc -masm=intel
来编译在 asm
语句中使用 Intel 语法的源文件。如果你不关心 clang,这对你自己使用来说很好。
如果您正在为 header 编写代码,您 可以 使用方言替代方案使其在 AT&T 和 Intel 语法之间可移植,至少对于海湾合作委员会:
static inline
void atomic_inc(volatile int *p) {
// use __asm__ instead of asm in headers, so it works even with -std=c11 instead of gnu11
__asm__("lock {addl , %0 | add %0, 1}": "+m"(*p));
// TODO: flag output for return value?
// maybe doesn't need to be asm volatile; compilers know that modifying pointed-to memory is a visible side-effect unless it's a local that fully optimizes away.
// If you want this to work as a memory barrier, use a `"memory"` clobber to stop compile-time memory reordering. The lock prefix provides a runtime full barrier
}
gcc/clang on the Godbolt compiler explorer.
的 source+asm 输出使用 g++ -O3
(默认或 -masm=att
),我们得到
atomic_inc(int volatile*):
lock addl , (%rdi) # operand-size is from my explicit addl suffix
ret
用g++ -O3 -masm=intel
,我们得到
atomic_inc(int volatile*):
lock add DWORD PTR [rdi], 1 # operand-size came from the %0 expansion
ret
clang 适用于 AT&T 版本,但在 -masm=intel
(或暗示的 -mllvm --x86-asm-syntax=intel
)时失败,因为这显然仅适用于代码由 LLVM 发出,而不是 front-end 如何填充 asm 模板。
clang 错误信息是:
<source>:4:13: error: unknown use of instruction mnemonic without a size suffix
__asm__("lock {addl , %0 | add %0, 1}": "+m"(*p));
^
<inline asm>:1:2: note: instantiated into assembly here
lock add (%rdi), 1
^
1 error generated.
它选择了 "Intel" 替代语法,但仍然使用 AT&T 内存操作数填充模板。