如何从内联 asm 访问 C struct/variables?
How to access C struct/variables from inline asm?
考虑以下代码:
int bn_div(bn_t *bn1, bn_t *bn2, bn_t *bnr)
{
uint32 q, m; /* Division Result */
uint32 i; /* Loop Counter */
uint32 j; /* Loop Counter */
/* Check Input */
if (bn1 == NULL) return(EFAULT);
if (bn1->dat == NULL) return(EFAULT);
if (bn2 == NULL) return(EFAULT);
if (bn2->dat == NULL) return(EFAULT);
if (bnr == NULL) return(EFAULT);
if (bnr->dat == NULL) return(EFAULT);
#if defined(__i386__) || defined(__amd64__)
__asm__ (".intel_syntax noprefix");
__asm__ ("pushl %eax");
__asm__ ("pushl %edx");
__asm__ ("pushf");
__asm__ ("movl %eax, (bn1->dat[i])");
__asm__ ("xorl %edx, %edx");
__asm__ ("divl (bn2->dat[j])");
__asm__ ("movl (q), %eax");
__asm__ ("movl (m), %edx");
__asm__ ("popf");
__asm__ ("popl %edx");
__asm__ ("popl %eax");
#else
q = bn->dat[i] / bn->dat[j];
m = bn->dat[i] % bn->dat[j];
#endif
/* Return */
return(0);
}
数据类型 uint32 基本上是无符号长整型或 uint32_t 无符号 32 位整数。 bnint 类型是无符号短整型 (uint16_t) 或 uint32_t,具体取决于 64 位数据类型是否可用。如果 64 位可用,则 bnint 为 uint32,否则为 uint16。这样做是为了在代码的其他部分捕获 carry/overflow。结构bn_t定义如下:
typedef struct bn_data_t bn_t;
struct bn_data_t
{
uint32 sz1; /* Bit Size */
uint32 sz8; /* Byte Size */
uint32 szw; /* Word Count */
bnint *dat; /* Data Array */
uint32 flags; /* Operational Flags */
};
该函数在我的源代码中从第 300 行开始。因此,当我尝试 compile/make 它时,出现以下错误:
system:/home/user/c/m3/bn 1036 $$$ ->make
clang -I. -I/home/user/c/m3/bn/.. -I/home/user/c/m3/bn/../include -std=c99 -pedantic -Wall -Wextra -Wshadow -Wpointer-arith -Wcast-align -Wstrict-prototypes -Wmissing-prototypes -Wnested-externs -Wwrite-strings -Wfloat-equal -Winline -Wunknown-pragmas -Wundef -Wendif-labels -c /home/user/c/m3/bn/bn.c
/home/user/c/m3/bn/bn.c:302:12: warning: unused variable 'q' [-Wunused-variable]
uint32 q, m; /* Division Result */
^
/home/user/c/m3/bn/bn.c:302:15: warning: unused variable 'm' [-Wunused-variable]
uint32 q, m; /* Division Result */
^
/home/user/c/m3/bn/bn.c:303:12: warning: unused variable 'i' [-Wunused-variable]
uint32 i; /* Loop Counter */
^
/home/user/c/m3/bn/bn.c:304:12: warning: unused variable 'j' [-Wunused-variable]
uint32 j; /* Loop Counter */
^
/home/user/c/m3/bn/bn.c:320:14: error: unknown token in expression
__asm__ ("movl %eax, (bn1->dat[i])");
^
<inline asm>:1:18: note: instantiated into assembly here
movl %eax, (bn1->dat[i])
^
/home/user/c/m3/bn/bn.c:322:14: error: unknown token in expression
__asm__ ("divl (bn2->dat[j])");
^
<inline asm>:1:12: note: instantiated into assembly here
divl (bn2->dat[j])
^
4 warnings and 2 errors generated.
*** [bn.o] Error code 1
Stop in /home/user/c/m3/bn.
system:/home/user/c/m3/bn 1037 $$$ ->
我知道的:
我认为自己相当精通 x86 汇编程序(从我上面编写的代码可以看出)。然而,我最后一次混合使用高级语言和汇编程序是在大约 15-20 年前使用 Borland Pascal 编写游戏图形驱动程序时(pre-Windows 95 时代)。我熟悉的是英特尔语法。
我不知道的:
如何从 asm 访问 bn_t 的成员(尤其是 *dat)?因为 *dat 是指向 uint32 的指针,所以我将元素作为数组访问(例如 bn1->dat[i])。
如何访问在堆栈上声明的局部变量?
我正在使用 push/pop 将损坏的寄存器恢复到它们以前的值,以免扰乱编译器。但是,我还需要在局部变量中包含 volatile 关键字吗?
或者,有没有我不知道的更好的方法?我不想把它放在一个单独的函数调用中,因为调用开销是因为这个函数对性能至关重要。
补充:
现在,我才刚刚开始编写这个函数,所以还没有完成。缺少循环和其他类似 support/glue 的代码。但是,主要要点是访问本地 variables/structure 元素。
编辑 1:
我使用的语法似乎是 clang 唯一支持的语法。我尝试了以下代码,但 clang 给了我各种错误:
__asm__ ("pushl %%eax",
"pushl %%edx",
"pushf",
"movl (bn1->dat[i]), %%eax",
"xorl %%edx, %%edx",
"divl ([=14=]x0c + bn2 + j)",
"movl %%eax, (q)",
"movl %%edx, (m)",
"popf",
"popl %%edx",
"popl %%eax"
);
它要我在第一行放一个右括号,代替逗号。我改用 %% 而不是 % 因为我在某处读到内联汇编需要 %% 来表示 CPU 寄存器,而 clang 告诉我我使用了无效的转义序列。
如果你只需要 32b / 32b => 32bit division,让编译器使用 div
的两个输出,即 gcc、clang 和icc 都很好,正如您在 Godbolt compiler explorer:
上看到的那样
uint32_t q = bn1->dat[i] / bn2->dat[j];
uint32_t m = bn1->dat[i] % bn2->dat[j];
编译器非常擅长 CSE 将其整合为一个 div
。只要确保您没有将 division 结果存储在 gcc 无法证明不会影响余数输入的地方。
例如*m = dat[i] / dat[j]
可能会重叠(别名)dat[i]
或 dat[j]
,因此 gcc 必须重新加载操作数并为 %
操作重做 div
。有关 bad/good 个示例,请参阅神栓 link。
对 32 位/32 位 = 32 位使用内联 asm div 不会给你带来任何好处,而且实际上会用 clang 生成更糟糕的代码(参见 godbolt link)。
如果您需要 64 位/32 位 = 32 位,您可能需要 asm,但是,如果没有内置编译器的话。 (GNU C 没有,AFAICT)。 C 中的明显方式(将操作数转换为 uint64_t
)生成对 64bit/64bit = 64bit libgcc 函数的调用,该函数具有分支和多个 div
指令。 gcc 不擅长证明结果适合 32 位,因此单个 div
指令不会导致 #DE
.
对于许多其他指令,您可以避免使用 builtin functions for things like popcount 编写 lot 的内联 asm。使用 -mpopcnt
,它编译为 popcnt
指令(并解释了英特尔 CPU 对输出操作数的错误依赖。)没有,它编译为 libgcc 函数调用。
总是喜欢编译成好的 asm 的内置函数或纯 C,因此编译器知道代码的作用。当内联使某些参数在编译时已知时,纯 C 可以是 optimized away or simplified,但是使用内联 asm 的代码只会将常量加载到寄存器中并在 运行 时执行 div
.内联 asm 也击败了相同数据的相似计算之间的 CSE,当然不能自动向量化。
正确使用 GNU C 语法
https://gcc.gnu.org/onlinedocs/gcc/Extended-Asm.html 解释了如何告诉汇编程序您需要寄存器中的哪些变量,以及输出是什么。
You can use Intel/MASM-like syntax and mnemonics, and non-% register names if you like, preferably by compiling with -masm=intel
. The AT&T syntax bug (fsub
and fsubr
mnemonics are reversed) 可能仍然存在于英特尔语法模式中;我忘记了。
大多数使用 GNU C 内联汇编的软件项目仅使用 AT&T 语法。
另请参阅 for more GNU C inline asm info, and the x86 标签 wiki。
一个asm
语句采用一个 字符串arg 和3 组约束。使其成为多行的最简单方法是使每个 asm 行成为一个以 \n
结尾的单独字符串,并让编译器隐式连接它们。
此外,您告诉编译器您想要将内容放入哪个寄存器。这样,如果变量已经在寄存器中,编译器就不必溢出它们并让您加载和存储它们。这样做真的会搬起石头砸自己的脚。 tutorial Brett Hale link 发表的评论有望涵盖所有这些内容。
使用 GNU C 内联 asm
的 div
的正确示例
您可以在 godbolt.
上看到编译器 asm 输出
uint32_t q, m; // this is unsigned int on every compiler that supports x86 inline asm with this syntax, but not when writing portable code.
asm ("divl %[bn2dat_j]\n"
: "=a" (q), "=d" (m) // results are in eax, edx registers
: "d" (0), // zero edx for us, please
"a" (bn1->dat[i]), // "a" means EAX / RAX
[bn2dat_j] "mr" (bn2->dat[j]) // register or memory, compiler chooses which is more efficient
: // no register clobbers, and we don't read/write "memory" other than operands
);
"divl %4"
也可以,但命名为 inputs/outputs 添加更多 input/output 约束时不要更改名称。
考虑以下代码:
int bn_div(bn_t *bn1, bn_t *bn2, bn_t *bnr)
{
uint32 q, m; /* Division Result */
uint32 i; /* Loop Counter */
uint32 j; /* Loop Counter */
/* Check Input */
if (bn1 == NULL) return(EFAULT);
if (bn1->dat == NULL) return(EFAULT);
if (bn2 == NULL) return(EFAULT);
if (bn2->dat == NULL) return(EFAULT);
if (bnr == NULL) return(EFAULT);
if (bnr->dat == NULL) return(EFAULT);
#if defined(__i386__) || defined(__amd64__)
__asm__ (".intel_syntax noprefix");
__asm__ ("pushl %eax");
__asm__ ("pushl %edx");
__asm__ ("pushf");
__asm__ ("movl %eax, (bn1->dat[i])");
__asm__ ("xorl %edx, %edx");
__asm__ ("divl (bn2->dat[j])");
__asm__ ("movl (q), %eax");
__asm__ ("movl (m), %edx");
__asm__ ("popf");
__asm__ ("popl %edx");
__asm__ ("popl %eax");
#else
q = bn->dat[i] / bn->dat[j];
m = bn->dat[i] % bn->dat[j];
#endif
/* Return */
return(0);
}
数据类型 uint32 基本上是无符号长整型或 uint32_t 无符号 32 位整数。 bnint 类型是无符号短整型 (uint16_t) 或 uint32_t,具体取决于 64 位数据类型是否可用。如果 64 位可用,则 bnint 为 uint32,否则为 uint16。这样做是为了在代码的其他部分捕获 carry/overflow。结构bn_t定义如下:
typedef struct bn_data_t bn_t;
struct bn_data_t
{
uint32 sz1; /* Bit Size */
uint32 sz8; /* Byte Size */
uint32 szw; /* Word Count */
bnint *dat; /* Data Array */
uint32 flags; /* Operational Flags */
};
该函数在我的源代码中从第 300 行开始。因此,当我尝试 compile/make 它时,出现以下错误:
system:/home/user/c/m3/bn 1036 $$$ ->make
clang -I. -I/home/user/c/m3/bn/.. -I/home/user/c/m3/bn/../include -std=c99 -pedantic -Wall -Wextra -Wshadow -Wpointer-arith -Wcast-align -Wstrict-prototypes -Wmissing-prototypes -Wnested-externs -Wwrite-strings -Wfloat-equal -Winline -Wunknown-pragmas -Wundef -Wendif-labels -c /home/user/c/m3/bn/bn.c
/home/user/c/m3/bn/bn.c:302:12: warning: unused variable 'q' [-Wunused-variable]
uint32 q, m; /* Division Result */
^
/home/user/c/m3/bn/bn.c:302:15: warning: unused variable 'm' [-Wunused-variable]
uint32 q, m; /* Division Result */
^
/home/user/c/m3/bn/bn.c:303:12: warning: unused variable 'i' [-Wunused-variable]
uint32 i; /* Loop Counter */
^
/home/user/c/m3/bn/bn.c:304:12: warning: unused variable 'j' [-Wunused-variable]
uint32 j; /* Loop Counter */
^
/home/user/c/m3/bn/bn.c:320:14: error: unknown token in expression
__asm__ ("movl %eax, (bn1->dat[i])");
^
<inline asm>:1:18: note: instantiated into assembly here
movl %eax, (bn1->dat[i])
^
/home/user/c/m3/bn/bn.c:322:14: error: unknown token in expression
__asm__ ("divl (bn2->dat[j])");
^
<inline asm>:1:12: note: instantiated into assembly here
divl (bn2->dat[j])
^
4 warnings and 2 errors generated.
*** [bn.o] Error code 1
Stop in /home/user/c/m3/bn.
system:/home/user/c/m3/bn 1037 $$$ ->
我知道的:
我认为自己相当精通 x86 汇编程序(从我上面编写的代码可以看出)。然而,我最后一次混合使用高级语言和汇编程序是在大约 15-20 年前使用 Borland Pascal 编写游戏图形驱动程序时(pre-Windows 95 时代)。我熟悉的是英特尔语法。
我不知道的:
如何从 asm 访问 bn_t 的成员(尤其是 *dat)?因为 *dat 是指向 uint32 的指针,所以我将元素作为数组访问(例如 bn1->dat[i])。
如何访问在堆栈上声明的局部变量?
我正在使用 push/pop 将损坏的寄存器恢复到它们以前的值,以免扰乱编译器。但是,我还需要在局部变量中包含 volatile 关键字吗?
或者,有没有我不知道的更好的方法?我不想把它放在一个单独的函数调用中,因为调用开销是因为这个函数对性能至关重要。
补充:
现在,我才刚刚开始编写这个函数,所以还没有完成。缺少循环和其他类似 support/glue 的代码。但是,主要要点是访问本地 variables/structure 元素。
编辑 1:
我使用的语法似乎是 clang 唯一支持的语法。我尝试了以下代码,但 clang 给了我各种错误:
__asm__ ("pushl %%eax",
"pushl %%edx",
"pushf",
"movl (bn1->dat[i]), %%eax",
"xorl %%edx, %%edx",
"divl ([=14=]x0c + bn2 + j)",
"movl %%eax, (q)",
"movl %%edx, (m)",
"popf",
"popl %%edx",
"popl %%eax"
);
它要我在第一行放一个右括号,代替逗号。我改用 %% 而不是 % 因为我在某处读到内联汇编需要 %% 来表示 CPU 寄存器,而 clang 告诉我我使用了无效的转义序列。
如果你只需要 32b / 32b => 32bit division,让编译器使用 div
的两个输出,即 gcc、clang 和icc 都很好,正如您在 Godbolt compiler explorer:
uint32_t q = bn1->dat[i] / bn2->dat[j];
uint32_t m = bn1->dat[i] % bn2->dat[j];
编译器非常擅长 CSE 将其整合为一个 div
。只要确保您没有将 division 结果存储在 gcc 无法证明不会影响余数输入的地方。
例如*m = dat[i] / dat[j]
可能会重叠(别名)dat[i]
或 dat[j]
,因此 gcc 必须重新加载操作数并为 %
操作重做 div
。有关 bad/good 个示例,请参阅神栓 link。
对 32 位/32 位 = 32 位使用内联 asm div 不会给你带来任何好处,而且实际上会用 clang 生成更糟糕的代码(参见 godbolt link)。
如果您需要 64 位/32 位 = 32 位,您可能需要 asm,但是,如果没有内置编译器的话。 (GNU C 没有,AFAICT)。 C 中的明显方式(将操作数转换为 uint64_t
)生成对 64bit/64bit = 64bit libgcc 函数的调用,该函数具有分支和多个 div
指令。 gcc 不擅长证明结果适合 32 位,因此单个 div
指令不会导致 #DE
.
对于许多其他指令,您可以避免使用 builtin functions for things like popcount 编写 lot 的内联 asm。使用 -mpopcnt
,它编译为 popcnt
指令(并解释了英特尔 CPU 对输出操作数的错误依赖。)没有,它编译为 libgcc 函数调用。
总是喜欢编译成好的 asm 的内置函数或纯 C,因此编译器知道代码的作用。当内联使某些参数在编译时已知时,纯 C 可以是 optimized away or simplified,但是使用内联 asm 的代码只会将常量加载到寄存器中并在 运行 时执行 div
.内联 asm 也击败了相同数据的相似计算之间的 CSE,当然不能自动向量化。
正确使用 GNU C 语法
https://gcc.gnu.org/onlinedocs/gcc/Extended-Asm.html 解释了如何告诉汇编程序您需要寄存器中的哪些变量,以及输出是什么。
You can use Intel/MASM-like syntax and mnemonics, and non-% register names if you like, preferably by compiling with -masm=intel
. The AT&T syntax bug (fsub
and fsubr
mnemonics are reversed) 可能仍然存在于英特尔语法模式中;我忘记了。
大多数使用 GNU C 内联汇编的软件项目仅使用 AT&T 语法。
另请参阅
一个asm
语句采用一个 字符串arg 和3 组约束。使其成为多行的最简单方法是使每个 asm 行成为一个以 \n
结尾的单独字符串,并让编译器隐式连接它们。
此外,您告诉编译器您想要将内容放入哪个寄存器。这样,如果变量已经在寄存器中,编译器就不必溢出它们并让您加载和存储它们。这样做真的会搬起石头砸自己的脚。 tutorial Brett Hale link 发表的评论有望涵盖所有这些内容。
使用 GNU C 内联 asm
的div
的正确示例
您可以在 godbolt.
上看到编译器 asm 输出uint32_t q, m; // this is unsigned int on every compiler that supports x86 inline asm with this syntax, but not when writing portable code.
asm ("divl %[bn2dat_j]\n"
: "=a" (q), "=d" (m) // results are in eax, edx registers
: "d" (0), // zero edx for us, please
"a" (bn1->dat[i]), // "a" means EAX / RAX
[bn2dat_j] "mr" (bn2->dat[j]) // register or memory, compiler chooses which is more efficient
: // no register clobbers, and we don't read/write "memory" other than operands
);
"divl %4"
也可以,但命名为 inputs/outputs 添加更多 input/output 约束时不要更改名称。