了解 FMA 指令性能

Understanding FMA instructions performance

我想了解如何最大限度地利用 CPU 进行的操作。我正在做一个简单的矩阵乘法程序，我有一个 Skylake 处理器。我在维基百科页面上查看有关此架构的失败信息，但我很难理解它。

据我了解，FMA 指令允许 3 路 FP 输入，对吗？并允许在它们之间混合加法和乘法。但是当我只添加两个浮点数时会发生什么？它只是简单地乘以一吗？我可以在 1 个循环中添加 3 个浮点数，还是将其拆分？我看到 skylake 有 32 FLOPs/cycle 用于单精度输入，但是“两个 8 宽 FMA 指令”是什么意思？

提前感谢您的解释

FMA 在一次运算中计算出 ± a*b ± c，并带有一个舍入误差。这就是它的作用，没有别的。不能使用 FMA 指令计算 a + b + c；为此，您需要两个相关的 ADD 操作。

根据编译器的不同，您可能必须打开一个编译器选项以允许使用 FMA 指令，因为它们给出的结果与先乘后加的结果不同。在某些情况下你可能不得不重新安排你的代码，例如 ab + cd + e 将被计算为 x = ab; y = FMA (c, d, x), z = y + e 但 e + ab + c*d 将计算为 x = FMA (a, b, e)； z = FMA (c, d, x)。 FFT 的基本运算计算可以用八个浮点运算来执行，并且可以使用四个 FMA 和两个其他运算重写为 10 个运算。

"Two 8-wide FMA instructions" 表示它可以使用两个 256 位向量寄存器执行 FMA 指令，每个寄存器包含 8 个浮点数，并且其中两个在同一周期中。

了解 FMA 指令性能

Understanding FMA instructions performance

floating-point

instruction-set

cpu-architecture

flops

fma