Intel Xeon Platinum 8168 上的 Vmovntpd 指令 CPU

Vmovntpd instruction on Intel Xeon Platinum 8168 CPU

我在汇编中有一个简单的矢量-矢量加法算法实现。它使用 AVX 从 A 向量中读取 4 个双精度值,从 B 向量中读取 4 个双精度值。该算法将这些数字相加并将结果写回 C 向量。如果我使用 vmovntpd 写回结果,性能变得非常随机。我在 Azure 服务器上进行了此测试,配备 Intel Xeon Platinum 8168 CPU。如果我 运行 在我的笔记本电脑(英特尔酷睿 i7-2640M CPU 上进行此测试,则此随机效果会消失。服务器上有什么问题?更多信息:服务器有 44 CPU-s.

[编辑] 这是我的代码:

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
;; Dense to dense
;; Without cache (for storing the result)
;; AVX-512
;; Without tolerances
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

global _denseToDenseAddAVX512_nocache_64_linux
_denseToDenseAddAVX512_nocache_64_linux:

push    rbp
mov     rbp, rsp
; c = a + lambda * b
; rdi: address1
; rsi: address2
; rdx: address3
; rcx: count
; xmm0: lambda

mov     rax, rcx
shr     rcx, 4
and     rax, 0x0F

vzeroupper

vmovupd  zmm5, [abs_mask]

sub     rsp, 8
movlpd  [rbp - 8], xmm0
vbroadcastsd    zmm7, [rbp - 8]
vmovapd  zmm6, zmm7

cmp     rcx, 0
je      after_loop_denseToDenseAddAVX512_nocache_64_linux

start_denseToDenseAddAVX512_nocache_64_linux:

vmovapd  zmm0, [rdi] ; a
vmovapd  zmm1, zmm7
vmulpd   zmm1, zmm1, [rsi] ; b
vaddpd   zmm0, zmm0, zmm1  ; zmm0 = c = a + b
vmovntpd  [rdx], zmm0

vmovapd  zmm2, [rdi + 64] ; a
vmovapd  zmm3, zmm6
vmulpd   zmm3, zmm3, [rsi + 64] ; b
vaddpd   zmm2, zmm2, zmm3  ; zmm2 = c = a + b
vmovntpd  [rdx + 64], zmm2

add     rdi, 128
add     rsi, 128
add     rdx, 128

loop    start_denseToDenseAddAVX512_nocache_64_linux

after_loop_denseToDenseAddAVX512_nocache_64_linux:

cmp     rax, 0
je      end_denseToDenseAddAVX512_nocache_64_linux

mov     rcx, rax

last_loop_denseToDenseAddAVX512_nocache_64_linux:

movlpd  xmm0, [rdi] ; a
movapd  xmm1, xmm7
mulsd   xmm1, [rsi] ; b
addsd   xmm0, xmm1  ; xmm0 = c = a + b
movlpd  [rdx], xmm0

add     rdi, 8
add     rsi, 8
add     rdx, 8

loop    last_loop_denseToDenseAddAVX512_nocache_64_linux

end_denseToDenseAddAVX512_nocache_64_linux:

mov     rsp, rbp
pop     rbp
ret

好的,我找到了解决方案!这是一个有 44 个 CPU 的 NUMA 架构,所以我禁用了 NUMA,并且我使用以下内核参数将在线 cpu-s 的数量限制为 1:numa=off maxcpus= 1 nr_cpus=1.