x86 调用约定:堆栈传递的参数应该是只读的吗?

x86 calling convention: should arguments passed by stack be read-only?

最先进的编译器似乎将堆栈传递的参数视为只读。请注意,在 x86 调用约定中,调用者将参数压入堆栈,而被调用者使用堆栈中的参数。例如下面的 C 代码:

extern int goo(int *x);
int foo(int x, int y) {
  goo(&x);
  return x;
}

在OSX 10.10中被clang -O3 -c g.c -S -m32编译成:

    .section    __TEXT,__text,regular,pure_instructions
    .macosx_version_min 10, 10
    .globl  _foo
    .align  4, 0x90
_foo:                                   ## @foo
## BB#0:
    pushl   %ebp
    movl    %esp, %ebp
    subl    , %esp
    movl    8(%ebp), %eax
    movl    %eax, -4(%ebp)
    leal    -4(%ebp), %eax
    movl    %eax, (%esp)
    calll   _goo
    movl    -4(%ebp), %eax
    addl    , %esp
    popl    %ebp
    retl


.subsections_via_symbols

这里先把参数x(8(%ebp))加载到%eax;然后存储在-4(%ebp);地址 -4(%ebp) 存储在 %eax 中; %eax 传递给函数 goo.

我想知道为什么 Clang 生成的代码将存储在 8(%ebp) 中的值复制到 -4(%ebp),而不是仅仅将地址 8(%ebp) 传递给函数 goo。它将节省内存操作并获得更好的性能。我在 GCC 中也观察到类似的行为(在 OS X 下)。更具体地说,我想知道为什么编译器不生成:

  .section  __TEXT,__text,regular,pure_instructions
    .macosx_version_min 10, 10
    .globl  _foo
    .align  4, 0x90
_foo:                                   ## @foo
## BB#0:
    pushl   %ebp
    movl    %esp, %ebp
    subl    , %esp
    leal    8(%ebp), %eax
    movl    %eax, (%esp)
    calll   _goo
    movl    8(%ebp), %eax
    addl    , %esp
    popl    %ebp
    retl


.subsections_via_symbols

如果 x86 调用约定要求传递的参数是只读的,我搜索了相关文档,但我找不到有关该问题的任何信息。有人对这个问题有什么想法吗?

C programming language mandates that arguments are passed by value。因此,对参数的任何修改(例如 x++; 作为 foo 的第一条语句)都是函数本地的,不会传播给调用者。

因此,一般的调用约定应该要求在每个调用点复制 参数。对于 unknown 调用,调用约定应该足够通用,例如通过函数指针!

当然,如果您将地址传递给某个内存区域,被调用的函数可以自由取消对该指针的引用,例如如

int goo(int *x) {
    static int count;
    *x = count++;
    return count % 3;
}

顺便说一句,您可以使用 link 时间优化(通过使用 clang -flto -O2gcc -flto -O2 编译 和 linking ) 可能使编译器能够改进或内联翻译单元之间的一些调用。

注意两个 Clang/LLVM and GCC are free software 编译器。如果您愿意,请随时向他们提出改进补丁(但由于两者都是非常复杂的软件,您需要工作几个月才能制作该补丁)。

注意。查看生成的汇编代码时,将 -fverbose-asm 传递给您的编译器!

C 的规则是参数必须按值传递。编译器将一种语言(具有一组规则)转换为另一种语言(可能具有完全不同的一组规则)。 唯一的限制是行为保持不变。 C语言的规则不适用于目标语言(例如汇编)。

这意味着如果编译器想要生成参数按引用传递而不按值传递的汇编语言;那么这是完全合法的(只要行为保持不变)。

真正的限制与C完全无关。真正的限制是链接。因此,不同的目标文件可以链接在一起,需要标准来确保一个目标文件中的调用者期望与另一个目标文件中的被调用者提供的任何内容相匹配。这就是所谓的 ABI。在某些情况下(例如 64 位 80x86),完全相同的架构有多个不同的 ABI。

您甚至可以发明您自己的截然不同的 ABI(并实现您自己的工具来支持您自己截然不同的 ABI),就 C 标准而言,这是完全合法的;即使您的 ABI 对所有内容都需要 "pass by reference"(只要行为保持不变)。

实际上,我只是使用 GCC 编译了这个函数:

int foo(int x)
{
    goo(&x);
    return x;
}

它生成了这段代码:

_foo:
        pushl       %ebp
        movl        %esp, %ebp
        subl        , %esp
        leal        8(%ebp), %eax
        movl        %eax, (%esp)
        call        _goo
        movl        8(%ebp), %eax
        leave
        ret

这是使用 GCC 4.9.2(如果重要的话在 32 位 cygwin 上),没有优化。所以实际上,GCC 完全按照您认为它应该做的去做,并直接从调用者将其压入堆栈的位置使用参数。