内联汇编在没有优化的情况下无法编译
Inline asm fails to compile without optimization
我需要 32 位 Linux 进程中的 futex 系统调用,但无法使用 syscall
函数(header 不可用)。这仍然可以通过使用内联汇编来完成,如下所示:
#include <time.h>
#define SYS_futex 0xf0
// We need -fomit-frame-pointer in order to set EBP
__attribute__((optimize("-fomit-frame-pointer")))
int futex(int* uaddr, int futex_op, int val, const struct timespec* timeout, int* uaddr2, int val3)
{
register int ebp asm ("ebp") = val3;
int result;
asm volatile("int [=10=]x80"
: "=a"(result)
: "a"(SYS_futex), "b"(uaddr), "c"(futex_op), "d"(val), "S"(timeout), "D"(uaddr2), "r"(ebp)
// : "memory" // would make this safe, but could cause some unnecessary spills. THIS VERSION IS UNSAFE ON PURPOSE, DO NOT USE.
);
if (result < 0)
{
// Error handling
return -1;
}
return result;
}
如预期的那样编译。
但是,由于我们没有指定可以读取 and/or 写入的内存位置,它可能会导致一些偷偷摸摸的错误。因此,我们可以使用虚拟内存输入和输出 ()
asm volatile("int [=11=]x80"
: "=a"(result), "+m"(uaddr2)
: "a"(SYS_futex), "b"(uaddr), "c"(futex_op), "d"(val), "S"(timeout), "D"(uaddr2), "r"(ebp), "m"(*uaddr), "m"(*timeout));
使用 gcc -m32
编译时,它会因 'asm' operand has impossible constraints
而失败。当使用 clang -fomit-frame-pointer -m32
编译时,它会失败并显示 inline assembly requires more registers than available
。不过我不明白为什么。
但是,当使用 -O1 -m32
(或 -O0
以外的任何级别)编译时,编译正常。
我看到两个明显的解决方案:
- 改为使用
"memory"
破坏器,这可能过于严格,阻止编译器将不相关的变量保存在寄存器中
- 使用
__attribute__((optimize("-O3")))
,我想避免使用
还有其他解决办法吗?
编译器不知道你实际上没有使用 *uaddr
和 *timeout
操作数,所以它仍然必须决定什么 %9
和 %10
如果你要使用它们,应该扩展到。这些对象的地址作为参数传递,因此它不能生成直接的内存引用;它必须是间接的,这意味着需要分配寄存器来存储这些地址;例如,编译器可以尝试将指针 uaddr
加载到 ecx
中,然后将 %9
扩展为 (%ecx)
。不幸的是,您已经为您的其他操作数占用了机器的所有寄存器,因此没有寄存器可用于此目的。
启用优化后,编译器足够聪明,可以判断出指针 uaddr
已经在 ebx
中可用,因此它可以将 %9
扩展为 (%ebx)
同样 %10
到 (%esi)
。然后它不需要任何额外的寄存器,一切都很好。
如果你在内联 asm 中实际提到 %9
和 %10
,你可以看到这种情况发生,例如 this example. With optimization on, it does as I said. Without optimization, it fails to compile as you know, but if we drop a couple of the other operands 以释放一些寄存器(这里 ecx
和edx
),我们看到它现在正在将 %7, %8
(它们重新编号)扩展到 (%edx), (%ecx)
,并相应地提前加载这些寄存器。它不知道这是多余的,因为 edx
和 ebx
都包含相同的值。
我不认为有任何好的方法可以避免这种情况,除了您已有的想法:启用优化,或使用“内存”破坏器。我怀疑“内存”破坏实际上会影响如此短的函数中生成的代码,而且无论如何,如果您在没有优化的情况下进行编译,那么您已经放弃了任何高效代码的希望。或者,只需在汇编中编写整个函数。
我需要 32 位 Linux 进程中的 futex 系统调用,但无法使用 syscall
函数(header 不可用)。这仍然可以通过使用内联汇编来完成,如下所示:
#include <time.h>
#define SYS_futex 0xf0
// We need -fomit-frame-pointer in order to set EBP
__attribute__((optimize("-fomit-frame-pointer")))
int futex(int* uaddr, int futex_op, int val, const struct timespec* timeout, int* uaddr2, int val3)
{
register int ebp asm ("ebp") = val3;
int result;
asm volatile("int [=10=]x80"
: "=a"(result)
: "a"(SYS_futex), "b"(uaddr), "c"(futex_op), "d"(val), "S"(timeout), "D"(uaddr2), "r"(ebp)
// : "memory" // would make this safe, but could cause some unnecessary spills. THIS VERSION IS UNSAFE ON PURPOSE, DO NOT USE.
);
if (result < 0)
{
// Error handling
return -1;
}
return result;
}
如预期的那样编译。
但是,由于我们没有指定可以读取 and/or 写入的内存位置,它可能会导致一些偷偷摸摸的错误。因此,我们可以使用虚拟内存输入和输出 (
asm volatile("int [=11=]x80"
: "=a"(result), "+m"(uaddr2)
: "a"(SYS_futex), "b"(uaddr), "c"(futex_op), "d"(val), "S"(timeout), "D"(uaddr2), "r"(ebp), "m"(*uaddr), "m"(*timeout));
使用 gcc -m32
编译时,它会因 'asm' operand has impossible constraints
而失败。当使用 clang -fomit-frame-pointer -m32
编译时,它会失败并显示 inline assembly requires more registers than available
。不过我不明白为什么。
但是,当使用 -O1 -m32
(或 -O0
以外的任何级别)编译时,编译正常。
我看到两个明显的解决方案:
- 改为使用
"memory"
破坏器,这可能过于严格,阻止编译器将不相关的变量保存在寄存器中 - 使用
__attribute__((optimize("-O3")))
,我想避免使用
还有其他解决办法吗?
编译器不知道你实际上没有使用 *uaddr
和 *timeout
操作数,所以它仍然必须决定什么 %9
和 %10
如果你要使用它们,应该扩展到。这些对象的地址作为参数传递,因此它不能生成直接的内存引用;它必须是间接的,这意味着需要分配寄存器来存储这些地址;例如,编译器可以尝试将指针 uaddr
加载到 ecx
中,然后将 %9
扩展为 (%ecx)
。不幸的是,您已经为您的其他操作数占用了机器的所有寄存器,因此没有寄存器可用于此目的。
启用优化后,编译器足够聪明,可以判断出指针 uaddr
已经在 ebx
中可用,因此它可以将 %9
扩展为 (%ebx)
同样 %10
到 (%esi)
。然后它不需要任何额外的寄存器,一切都很好。
如果你在内联 asm 中实际提到 %9
和 %10
,你可以看到这种情况发生,例如 this example. With optimization on, it does as I said. Without optimization, it fails to compile as you know, but if we drop a couple of the other operands 以释放一些寄存器(这里 ecx
和edx
),我们看到它现在正在将 %7, %8
(它们重新编号)扩展到 (%edx), (%ecx)
,并相应地提前加载这些寄存器。它不知道这是多余的,因为 edx
和 ebx
都包含相同的值。
我不认为有任何好的方法可以避免这种情况,除了您已有的想法:启用优化,或使用“内存”破坏器。我怀疑“内存”破坏实际上会影响如此短的函数中生成的代码,而且无论如何,如果您在没有优化的情况下进行编译,那么您已经放弃了任何高效代码的希望。或者,只需在汇编中编写整个函数。