_mm_cmpgt_sd 和其他类似方法有什么意义？

What's the point of _mm_cmpgt_sd and other similar methods?

我正在寻找一个 SIMD 选项来加速比较，我找到了函数 __m128d _mm_cmpgt_sd (__m128d a, __m128d b)

显然它比较了较低的双精度，并将 a 中的较高双精度复制到输出中。它在做什么是有道理的，但有什么意义呢？这是要解决什么问题？

重点可能是在非常老的硬件上，例如 Intel Pentium II 和 III，_mm_cmpgt_sd() 比 _mm_cmpgt_pd() 快。参见 Agner Fog 的 instruction tables。这些处理器（PII 和 PIII）只有一个 64 位宽的浮点单元。 128 位宽的 SSE 指令在这些处理器上作为两个 64 位微操作执行。在较新的 CPU（例如 intel Core 2 (Merom) 和更新版本）上，_pd 和 _ps 版本与 _sd 和 _ss 版本一样快。因此，如果您只需要比较单个元素而不关心结果的高 64 位，您可能更喜欢 _sd 和 _ss 版本。

此外，_mm_cmpgt_pd() 可能引发伪浮点异常或性能下降，如果高位垃圾位意外包含 NaN 或次正规数，请参阅。尽管在实践中，使用内在函数编程时应该很容易避免此类高位垃圾位。

如果您想向量化您的代码，并且需要压缩双重比较，请使用内部 _mm_cmpgt_pd()，而不是 _mm_cmpgt_sd()。

cmpsd 是存在于 asm 中并在 XMM 寄存器上运行的指令，因此 不一致 而不是 通过内部函数公开它。

（几乎所有 packed-FP 指令（shuffles/blends 除外）都有一个标量版本，因此 ISA 设计再次存在一致性论点；它只是相同操作码的额外前缀，可能需要更多晶体管到操作码不支持标量版本的特殊情况。）

您或设计内在函数的人 API 是否能想到一个合理的用例根本不是重点。 这样做是愚蠢的在此基础上将事情排除在外；当有人提出用例时，他们将不得不使用内联 asm 或编写编译为更多指令的 C。

也许有一天有人会找到一个向量的用例，其中掩码作为下半部分，而仍然有效的 double 在上半部分。例如可能 _mm_and_ps 返回到输入以有条件地仅将低元素置零 而无需在高元素中进行打包比较以产生 true。

或者考虑全一是 NaN 的位模式，全零是 +0.0 的位模式。

IIRC，cmppd 如果任何元素不正常（如果您没有在 MXCSR 中设置 DAZ 位），则会减慢速度。至少在设计 ISA 时存在的一些旧 CPU 上是这样。因此，对于 FP 比较，拥有标量版本对于（或曾经）避免对您不关心的元素进行虚假 FP 辅助至关重要。

也为了避免伪造的 FP 异常（或者如果它们被屏蔽则设置异常标志），就像任一向量的上部元素中有 NaN 一样。

@wim 还提出了一个很好的观点，即 Core2 之前的英特尔 CPU 将 128 位 SIMD 指令解码为 2 微指令，每个 64 位一半。因此，当您不需要高半结果时使用 cmppd 总是会更慢，即使它不会出错。许多多 uop 指令很容易在没有 uop 缓存的 CPU 上成为前端解码器的瓶颈，因为只有一个解码器可以处理它们。

您通常不会将内部函数用于 FP 标量指令，例如 cmpsd 或 addsd，但它们存在以防您需要它们（例如，作为水平求和中的最后一步）。更多情况下，在编译没有自动矢量化的标量代码时，您只需让编译器使用指令的标量版本。

通常对于标量比较，编译器会希望在 EFLAGS 中得到结果，因此将使用 ucomisd 而不是创建比较掩码，但对于无分支代码，掩码通常很有用，例如a < b ? c : 0.0 与 cmpsd 和 andpd。（或者真的 andps 因为它更短并且与毫无意义的 andpd 做同样的事情。）

_mm_cmpgt_sd 和其他类似方法有什么意义？

What's the point of _mm_cmpgt_sd and other similar methods?

x86

sse

simd

intrinsics