perf record(或其他分析器)如何选择将哪条指令计为成本时间?
How does perf record (or other profilers) pick which instruction to count as costing time?
最近,我发现实际上 perf(或 pprof)可能会在反汇编视图指令时序中显示在实际未占用该时间的行附近。真正的指令,实际上花费了这个时间,就在它之前。我知道一个模糊的解释,这是由于 CPU 中的指令流水线而发生的。但是,我想了解以下内容:
- 这个效果有更详细的解释吗?
- 它是否记录在 perf 或 pprof 中?我还没有找到任何参考资料。
- 有没有办法获得正确放置的时间?
(快速而不是超级详细的答案;如果有人想写一个更详细的答案会更好)。
perf
只使用 CPU 自己的硬件性能计数器,可以将其置于一种模式,在该模式下,当计数器倒计时到零或达到阈值时,它们会记录一个事件。
引发中断或将事件写入内存中的缓冲区(使用 PEBS 精确事件)。该事件将包括一个代码地址,CPU 选择该地址与事件关联(即引发中断的点),即使对于像 cycles
这样的事件,它与 instructions
不一样本质上有一个特定的指令相关联。当计数器换行时,无序的 exec 后端可以有几百条指令在运行,但必须为任何给定的样本准确地选择一条。
一般来说,CPU“责怪”正在等待生成结果缓慢的指令,而不是生成结果的指令,尤其是缓存未命中负载。
有关 Intel x86 CPUs 的示例,请参阅
这似乎也取决于在引发中断时让 ROB 中的最后一条指令退出的效果。 (英特尔 CPU 至少似乎确实这样做了;即使使用可能很慢的指令也能确保向前推进。)
一般来说,当晚的指令被指责而不是实际花费时间的指令时,可能会出现“偏差”,原因可能不同。 (也许特别是对于非核心事件,因为它们与核心时钟异步发生。)
其他带有有趣示例或其他内容的相关问答
- https://travisdowns.github.io/blog/2019/08/20/interrupts.html - 一些实验中的指令倾向于在 Skylake 上计数。
最近,我发现实际上 perf(或 pprof)可能会在反汇编视图指令时序中显示在实际未占用该时间的行附近。真正的指令,实际上花费了这个时间,就在它之前。我知道一个模糊的解释,这是由于 CPU 中的指令流水线而发生的。但是,我想了解以下内容:
- 这个效果有更详细的解释吗?
- 它是否记录在 perf 或 pprof 中?我还没有找到任何参考资料。
- 有没有办法获得正确放置的时间?
(快速而不是超级详细的答案;如果有人想写一个更详细的答案会更好)。
perf
只使用 CPU 自己的硬件性能计数器,可以将其置于一种模式,在该模式下,当计数器倒计时到零或达到阈值时,它们会记录一个事件。
引发中断或将事件写入内存中的缓冲区(使用 PEBS 精确事件)。该事件将包括一个代码地址,CPU 选择该地址与事件关联(即引发中断的点),即使对于像 cycles
这样的事件,它与 instructions
不一样本质上有一个特定的指令相关联。当计数器换行时,无序的 exec 后端可以有几百条指令在运行,但必须为任何给定的样本准确地选择一条。
一般来说,CPU“责怪”正在等待生成结果缓慢的指令,而不是生成结果的指令,尤其是缓存未命中负载。
有关 Intel x86 CPUs 的示例,请参阅
一般来说,当晚的指令被指责而不是实际花费时间的指令时,可能会出现“偏差”,原因可能不同。 (也许特别是对于非核心事件,因为它们与核心时钟异步发生。)
其他带有有趣示例或其他内容的相关问答
- https://travisdowns.github.io/blog/2019/08/20/interrupts.html - 一些实验中的指令倾向于在 Skylake 上计数。