Perf 在没有内存访问的块中显示 L1-dcache-load-misses

Question

下面是一个代码块，它被 perf record 标记为对所有 L1-dcache 未命中的 10% 负责，但该块完全是在 zmm 寄存器之间移动。这是 perf 命令字符串：

perf record -e L1-dcache-load-misses -c 10000 -a -- ./Program_to_Test.exe

代码块：

Round:
vmulpd zmm1,zmm0,zmm28
VCVTTPD2QQ zmm0{k7},zmm1
VCVTUQQ2PD zmm2{k7},zmm0
vsubpd zmm3,zmm1,zmm2
vmulpd zmm4,zmm3,zmm27
VCVTTPD2QQ zmm5{k7}{z},zmm4

VPCMPGTQ k2,zmm5,zmm26
VPCMPEQQ k3 {k7},zmm5,zmm26
KADDQ k1,k2,k3

VCVTQQ2PD zmm2{k7},zmm0
VDIVPD zmm1{k7},zmm2,zmm28 ; Divide by 100
VPXORQ zmm2{k7},zmm2,zmm2
vmovupd zmm2,zmm1
VADDPD zmm2{k1},zmm1,zmm25

对于该代码块，我使用其他 L1 度量（例如 l1d.replacement。

得到了相似的结果

我的问题是，只有 zmm 寄存器移动的块怎么会产生 L1 缓存未命中？我根本不认为寄存器会进入内存。实际上，最后一次内存访问是在该代码块之上的 10 条指令；其他9条指令都是寄存器到寄存器指令。

Answer 1

事件 L1-dcache-load-misses 映射到 Sandy Bridge 和更高版本的微体系结构上的 L1D.REPLACEMENT（或映射到旧微体系结构上的类似事件）。此事件不支持精确采样，这意味着样本可以指向无法生成正在采样的事件的指令。（请注意，L1-dcache-load-misses 在任何当前 Atom 上均不受支持。）

从 Haswell+ 或 Silvermont+ 微架构上的 Linux 3.11 运行开始，通过指定满足以下两个条件的采样事件，可以使用事件指令指针捕获样本：

事件支持精确采样。例如，您可以使用任何表示内存 uop 或指令退役的事件。事件的确切名称和含义取决于微体系结构。有关详细信息，请参阅英特尔 SDM 第 3 卷。不存在支持精确采样且与L1D.REPLACEMENT具有相同确切含义的事件。在支持扩展 PEBS 的处理器上，只有一部分 PEBS 事件支持精确采样。
事件启用精确采样级别。在 Linux perf 中，这可以通过将“:pp”附加到事件名称或原始事件编码，或在 PMU 语法中指定的原始事件的终止斜杠后附加“pp”来完成。例如，在 Haswell 上，事件 mem_load_uops_retired.l1_miss:pp 可以指定为 Linux perf.

对于这样的事件，当事件计数器溢出时，PEBS 硬件被武装起来，这意味着它现在正在寻找尽可能早的机会来收集精确的样本。当在这段 window 时间内至少有一条指令会导致事件时，PEBS 硬件最终将被其中一条偏向 high-latency 指令的指令触发。当触发 PEBS 的指令退出时，PEBS 微代码例程将执行并捕获 PEBS 记录，其中包含触发 PEBS 的指令的 IP（不同于架构 IP）。 perf用来显示结果的指令指针（IP）就是这个eventing IP。（我注意到可能有少量样本指向不可能导致事件的指令。）

在较旧的微体系结构（在 Haswell 和 Silvermont 之前）上，还支持“pp”精确采样级别。这些处理器上的 PEBS 只会捕获架构事件，该事件指向按程序顺序紧跟在 PEBS 触发指令之后的静态指令。 Linux perf 使用 LBR，如果可能的话，它包含 source-target IP 对来确定捕获的 IP 是否是跳转的目标。如果是这种情况，它会将源 IP 作为事件 IP 添加到样本记录中。

一些微架构支持一个或多个具有更好采样分布的事件（好到什么程度取决于微架构、事件、计数器以及计数器即将溢出时正在执行的指令）。在 Linux perf 中，如果支持，可以通过指定精确级别“ppp”来启用精确分发。

Perf 在没有内存访问的块中显示 L1-dcache-load-misses

Perf shows L1-dcache-load-misses in a block with no memory access

linux

performance

profiling

x86-64

perf