AVX-512 - 如何使用汇编指令从内存中收集数据?
AVX-512 - How to gather data from memory using assembly instruction?
我正在尝试使用汇编程序指令从内存中收集 64 位整数。下面您可以看到我如何从 C
调用 assembly
代码。请注意,汇编代码使用 NASM
语法。
nasm_gather.asm
文件
bits 64
section .text
global nasm_gather:function
extern base_addr
extern vindex
nasm_gather:
; prolog
push rbp
push rbx
push r12
push r13
mov r12 ,[rel base_addr] ; r12 point to base_addr
mov r13 ,[rel vindex] ; r13 points to vindex
vmovdqu32 zmm1 ,[r13] ; zmm1 = [2, 5, 1, 3, 0, 4, 7, 6]
vpxorq zmm2 ,zmm2 ,zmm2 ; zmm2 = [0, 0, 0, 0, 0, 0, 0, 0]
vpgatherqq zmm2 ,[r12 + zmm1*8] ; ----> Illegal instruction at address = ...
...
; epilog
pop r13
pop r12
pop rbx
pop rbp
ret
main.cpp
文件
#include <iostream>
#include <immintrin.h>
using namespace std;
extern "C" int nasm_gather();
const int N=32;
int64_t* base_addr /*__attribute__ ((aligned (64)))*/ = (int64_t *) malloc(sizeof(int64_t) * N);
int64_t* vindex = (int64_t *) malloc(sizeof(int64_t) * 8);
int main() {
/* initialize indices */
vindex[0]=2; vindex[1]=5; vindex[2]=1; vindex[3]=3;
vindex[4]=0; vindex[5]=4; vindex[6]=7; vindex[7]=6;
// ...
int64_t result = nasm_gather();
...
return 0;
}
(vpgatherqq zmm, vm64z
汇编指令对应C中的_mm512_i64gather_epi64内在函数)
就在程序进行到这一步时:
vpgatherqq zmm2 ,[r12 + zmm1*8]
我收到非法指令错误:
Illegal instruction at address = 4011f0: 62 d2 fd 48 91 14 cc 62 f1 7e
48 6f c2 e8 10
If you believe your application should attempt to
execute this illegal instruction (and others that may be present),
Then use this knob: -emit-illegal-insts 0 and this error message will
be avoided.
有什么问题?
聚会需要一个面具(这样他们可以在被打断或某个元素出现故障时记录进度)。 NASM 通常不会让你 assemble 没有警告的非法指令;这是一个无法帮助您发现此错误的 NASM 错误。
此外,您使用全局变量而不是函数参数的整个方法对可维护性和性能都是不利的。 如果您已经愿意告诉 GCC 它可以发出 AVX-512 指令 (-march=skylake-avx512
) 并在您的源代码中 #include <immintrin.h>
像普通人一样使用内在函数。例如_mm512_mask_i64gather_epi64
。调用任何函数而不是内联 gather 指令将花费 gather 成本的很大一部分,如果它是以这种方式编写的笨重低效函数,则成本会更高。如果您的索引尚未在 SIMD 向量中,则收集非常有问题,并且使用存储在全局变量中的指针作为索引肯定无济于事,而不是为收集函数传递指针 arg 来加载向量来自某处的指数。
以下代码 运行 适合我,在 SDE 8.33.0,NASM 2.15.05 中。您声称添加 {k1}
并不能解决您的问题。要么您的 SDE 版本损坏,要么您做错了什么。或者您忘记从更新的源重建您的可执行文件。
default rel
global _start
_start:
lea rax, [rel buf] ; dummy base = static array. In a function, use RDI (first int/pointer arg)
vpxor xmm1, xmm1,xmm1 ; ZMM1 = dummy index = all zeros, efficiently done with a VEX-coded AVX instruction
kxnorb k1, k0,k0 ; mask = -1
vpxor xmm0, xmm0,xmm0 ; optional: dependency-breaking before merge-masking. GCC will do this for the intrinsic.
vpgatherqq zmm0{k1}, [rax + zmm1*8]
mov eax, 231
syscall ; exit_group(RDI)
section .bss
buf: resd 1024
如果我删除 {k1}
,我 可以 重现该 SDE 错误消息,使其像您原来的问题一样暴露无遗。 NASM 2.15.05 错误,如果您尝试使用 {k1}{z}
- Gathers 仅支持合并屏蔽(同样,它可以在部分执行被 #PF 或可能中断后恢复)。但是使用正确的源代码,它可以在静态可执行文件中构建和 运行s 就好了。主机 CPU 是 i7-6700k Skylake 客户端(不支持 AVX-512,因此由 SDE 使其工作)。
$ nasm -felf64 avx512-gather.asm
$ ld -o avx512-gather avx512-gather.o
$ /opt/sde-external-8.33.0-2019-02-07-lin/sde64 -- ./avx512-gather
$ echo $?
0
(当然,sde64 -icl
也有效。)
将相同的机器代码链接到可从 C++ 调用的函数中会 运行 以相同的方式,但同样,当您可以使用内在函数时(以及 disassemble 和 objdump -drwC -Mintel a.out
看看 GCC 如何使用指令。)
我正在尝试使用汇编程序指令从内存中收集 64 位整数。下面您可以看到我如何从 C
调用 assembly
代码。请注意,汇编代码使用 NASM
语法。
nasm_gather.asm
文件
bits 64
section .text
global nasm_gather:function
extern base_addr
extern vindex
nasm_gather:
; prolog
push rbp
push rbx
push r12
push r13
mov r12 ,[rel base_addr] ; r12 point to base_addr
mov r13 ,[rel vindex] ; r13 points to vindex
vmovdqu32 zmm1 ,[r13] ; zmm1 = [2, 5, 1, 3, 0, 4, 7, 6]
vpxorq zmm2 ,zmm2 ,zmm2 ; zmm2 = [0, 0, 0, 0, 0, 0, 0, 0]
vpgatherqq zmm2 ,[r12 + zmm1*8] ; ----> Illegal instruction at address = ...
...
; epilog
pop r13
pop r12
pop rbx
pop rbp
ret
main.cpp
文件
#include <iostream>
#include <immintrin.h>
using namespace std;
extern "C" int nasm_gather();
const int N=32;
int64_t* base_addr /*__attribute__ ((aligned (64)))*/ = (int64_t *) malloc(sizeof(int64_t) * N);
int64_t* vindex = (int64_t *) malloc(sizeof(int64_t) * 8);
int main() {
/* initialize indices */
vindex[0]=2; vindex[1]=5; vindex[2]=1; vindex[3]=3;
vindex[4]=0; vindex[5]=4; vindex[6]=7; vindex[7]=6;
// ...
int64_t result = nasm_gather();
...
return 0;
}
(vpgatherqq zmm, vm64z
汇编指令对应C中的_mm512_i64gather_epi64内在函数)
就在程序进行到这一步时:
vpgatherqq zmm2 ,[r12 + zmm1*8]
我收到非法指令错误:
Illegal instruction at address = 4011f0: 62 d2 fd 48 91 14 cc 62 f1 7e 48 6f c2 e8 10
If you believe your application should attempt to execute this illegal instruction (and others that may be present), Then use this knob: -emit-illegal-insts 0 and this error message will be avoided.
有什么问题?
聚会需要一个面具(这样他们可以在被打断或某个元素出现故障时记录进度)。 NASM 通常不会让你 assemble 没有警告的非法指令;这是一个无法帮助您发现此错误的 NASM 错误。
此外,您使用全局变量而不是函数参数的整个方法对可维护性和性能都是不利的。 如果您已经愿意告诉 GCC 它可以发出 AVX-512 指令 (-march=skylake-avx512
) 并在您的源代码中 #include <immintrin.h>
像普通人一样使用内在函数。例如_mm512_mask_i64gather_epi64
。调用任何函数而不是内联 gather 指令将花费 gather 成本的很大一部分,如果它是以这种方式编写的笨重低效函数,则成本会更高。如果您的索引尚未在 SIMD 向量中,则收集非常有问题,并且使用存储在全局变量中的指针作为索引肯定无济于事,而不是为收集函数传递指针 arg 来加载向量来自某处的指数。
以下代码 运行 适合我,在 SDE 8.33.0,NASM 2.15.05 中。您声称添加 {k1}
并不能解决您的问题。要么您的 SDE 版本损坏,要么您做错了什么。或者您忘记从更新的源重建您的可执行文件。
default rel
global _start
_start:
lea rax, [rel buf] ; dummy base = static array. In a function, use RDI (first int/pointer arg)
vpxor xmm1, xmm1,xmm1 ; ZMM1 = dummy index = all zeros, efficiently done with a VEX-coded AVX instruction
kxnorb k1, k0,k0 ; mask = -1
vpxor xmm0, xmm0,xmm0 ; optional: dependency-breaking before merge-masking. GCC will do this for the intrinsic.
vpgatherqq zmm0{k1}, [rax + zmm1*8]
mov eax, 231
syscall ; exit_group(RDI)
section .bss
buf: resd 1024
如果我删除 {k1}
,我 可以 重现该 SDE 错误消息,使其像您原来的问题一样暴露无遗。 NASM 2.15.05 错误,如果您尝试使用 {k1}{z}
- Gathers 仅支持合并屏蔽(同样,它可以在部分执行被 #PF 或可能中断后恢复)。但是使用正确的源代码,它可以在静态可执行文件中构建和 运行s 就好了。主机 CPU 是 i7-6700k Skylake 客户端(不支持 AVX-512,因此由 SDE 使其工作)。
$ nasm -felf64 avx512-gather.asm
$ ld -o avx512-gather avx512-gather.o
$ /opt/sde-external-8.33.0-2019-02-07-lin/sde64 -- ./avx512-gather
$ echo $?
0
(当然,sde64 -icl
也有效。)
将相同的机器代码链接到可从 C++ 调用的函数中会 运行 以相同的方式,但同样,当您可以使用内在函数时(以及 disassemble 和 objdump -drwC -Mintel a.out
看看 GCC 如何使用指令。)