在两个内联汇编调用中与在一个内联汇编调用中相比内存被破坏？

Question

考虑到 GCC 兼容的编译器和 x86-64 架构，这个问题遵循。

我想知道下面的option 1、option 2和option 3有什么区别吗？结果在所有情况下都是一样的，还是会有所不同。如果是的话会有什么区别？

// Option 1
asm volatile(:::"memory");
asm volatile("CPUID":"=a"(eax),"=b"(ebx),"=c"(ecx),"=d"(edx):"0"(level):);

和

// Option 2
asm volatile("CPUID":"=a"(eax),"=b"(ebx),"=c"(ecx),"=d"(edx):"0"(level):);
asm volatile(:::"memory");

和

// Option 3
asm volatile("CPUID":"=a"(eax),"=b"(ebx),"=c"(ecx),"=d"(edx):"0"(level):"memory");

Answer 1

选项 1 和 2 会让 CPUID 本身与不相关的非 volatile loads/stores（在一个方向或另一个方向）重新排序。这很可能不是您想要的。

您可以在 CPUID 的两边设置内存屏障，但最好只让 CPUID 本身成为内存屏障。

正如 Jester 指出的那样，选项 1 将强制从内存中重新加载 level，如果它曾经在函数外部传递过它的地址，或者如果它已经是全局或 static.

( 或者无论决定 C 变量是否可以被使用 "memory" 破坏器的 asm 读取或写入修改的确切标准是什么。我认为它与优化器用来决定是否在对不透明函数的非内联函数调用中，变量可以保存在寄存器中，因此没有将其地址传递到任何地方并且不是 asm 语句的输入的纯局部变量仍然可以存在于寄存器中).

例如 (Godbolt compiler explorer):

void foo(int level){
    int eax, ebx, ecx, edx;
    asm volatile("":::"memory");
    asm volatile("CPUID"
        :  "=a"(eax),"=b"(ebx),"=c"(ecx),"=d"(edx)
        :  "0"(level)
        :
    );
}

# x86-64 gcc7.3  -O3 -fverbose-asm

    pushq   %rbx  #           # rbx is call-preserved, but we clobber it.
    movl    %edi, %eax      # level, eax
    CPUID
    popq    %rbx    #
    ret

注意缺少函数 arg 的 spill/reload。

通常我会使用 Intel 语法，但对于内联汇编，最好始终使用 AT&T，除非你完全讨厌 AT&T 语法或不知道它。

即使它在内存中启动（i386 System V 调用约定，带有堆栈参数），编译器仍然决定没有任何其他内容（包括带有内存破坏的 asm 语句）可以引用它。但是我们如何分辨延迟加载之间的区别呢？修改barrier前的函数arg，然后在barrier后使用：

void modify_level(int level){
    level += 1;                  // modify level before the barrier
    int eax, ebx, ecx, edx;
    asm volatile("#mem barrier here":::"memory");
    asm volatile("CPUID"         // then read it after
    :  "=a"(eax),"=b"(ebx),"=c"(ecx),"=d"(edx)
    :  "0"(level):);
}

gcc -m32 -O3 -fverbose-asm 的 asm 输出是：

modify_level(int):
    pushl   %ebx  #
    #mem barrier here
    movl    8(%esp), %eax   # level, tmp97
    addl    , %eax        #, level
    CPUID
    popl    %ebx    #
    ret

请注意，编译器让 level++ 跨内存屏障重新排序，因为它是一个局部变量。

Godbolt 过滤手写的 asm 注释以及编译器生成的 asm 注释行。我禁用了评论过滤器并找到了内存屏障。您可能想要删除 -fverbose-asm 以减少噪音。或者为 mem 屏障使用非注释字符串：如果您只是查看编译器的 asm 输出，则不必 assemble 。（除非你使用的是内置 assembler 的 clang）。

顺便说一句，你问题的原始版本没有编译：你遗漏了空字符串作为 asm 模板。 asm(:::"memory")。 output, input, clobber部分可以为空，但asm指令字符串不是可选的。

有趣的是，您可以在字符串中添加 asm 注释：

asm volatile("# memory barrier here":::"memory");

gcc 在写入 asm 输出时填充字符串模板中的任何 %whatever 内容，因此您甚至可以执行 "CPUID # %%0 was in %0" 之类的操作并查看 gcc 为您的 "dummy" args 选择了什么asm 模板中未提及的其他内容。（当你给 asm 语句一个指针时，虚拟内存 input/output 操作数告诉编译器你 read/write 哪个内存而不是使用 "memory" clobber 更有趣。）

在两个内联汇编调用中与在一个内联汇编调用中相比内存被破坏？

Clobbered memory in two inline assembly calls vs in one inline assembly call?

c++

assembly

gcc

inline-assembly

cpuid