'pcmpeqb' 的延迟 - 内存与 xmm 寄存器

Question

我有这两个选项：

选项 1：

loop:
...
     movdqu   xmm0, [rax]
     pcmpeqb  xmm0, [.zero_table]
...
...

align 16
.zero_table:
    DQ 0, 0

选项 2：

pxor xmm1, xmm1
loop:
  ...
    movdqu   xmm0, [rax]
    pcmpeqb  xmm0, xmm1
  ...
  ...

因为我们有一个循环而且我认为内存操作数有更多的延迟成本，所以我问这个问题...... 哪个选项更好并且延迟成本更低？

Answer 1

第二个选项显然更好：循环中的未融合域微指令更少。因此乱序 exec 可以运行提前并且不需要那么多的物理寄存器或加载缓冲区（或者在 ALU uop 读取它们之前完全保存这些加载结果的任何东西）。 您几乎总是希望将常量提升到循环之外。额外指令的 1 个额外 uop 和较小的 L1i/uop 缓存占用空间是值得的。

（Nehalem 和更早的 Intel（P6 系列）如果您在一组指令中读取太多 "cold" 寄存器，则会出现寄存器读取停顿，但这只是 10 年前的 Intel CPU，不是AMD 而不是最近的英特尔。）

pcmpeqb xmm, [mem] 是 ROB 的 1 个融合域 uop（具有该寻址模式），但需要两个 RS 条目（就像一个单独的加载然后 pcmpeqb reg,reg）。当然，常量加载没有输入依赖性，因此可以立即执行，但显然会消耗缓存读取和加载吞吐量资源。

唯一的问题是这个是否在一个循环中。

微融合 ALU + 负载仍然只有从其寄存器输入到其寄存器输出的常规 ALU uop 延迟。乱序执行可以执行负载因为地址没有依赖关系，所以尽早。 https://uops.info/ 有这方面的详细数据。

但是，如果 rax（指针）可能无法立即准备就绪，那么是的，加载使用延迟将成为关键路径的一部分。（地址生成需要时间。）

顺便说一句，第一个选项不好；使用 xorps 或 pxor xmm0,xmm0 的零 XMM 寄存器，而不是通过加载常量。

    xorps    xmm0, xmm0    ; as cheap as a NOP on Sandybridge-family, or one ALU uop on Zen
    pcmpeqb  xmm0, [rax]   ; requires alignment unless you can use vpcmpeqb

在循环外我猜你可以考虑使用全零作为内存源操作数，如果你确定前端总是一个瓶颈并且你的常量很少缓存 -小姐。然后，即使 [rax] 未对齐，您也可以将其总数减少到 2 条指令。但这会占用您本可以使用 3 字节或 4 字节指令生成的内容的数据缓存占用空间。

但是如果你确实有一些其他的常量需要超过 1 或 2 条指令来即时创建，我想不出任何真正的原因为什么最好先加载常量或取消引用寄存器. rip-relative 和 [register] 寻址模式都可以在 Sandybridge 系列的后端保持微融合。当然，如果没有 AVX，pcmpeqb 的内存操作数必须对齐，因此如果您想通过将一个负载折叠到 ALU 操作的内存源操作数中来节省前端带宽，这可能会迫使您动手。

    movdqu  xmm0, [rax]
    pcmpeqb xmm0, [rel some_constant]

'pcmpeqb' 的延迟 - 内存与 xmm 寄存器

latency for 'pcmpeqb' - memory vs xmm register

optimization

assembly

sse

micro-optimization

sse2