将 xmm 寄存器的低两个 32 位浮点数扩展到整个 xmm 寄存器

Expand the lower two 32-bit floats of an xmm register to the whole xmm register

在 Intel x86 汇编中执行以下操作的最有效方法是什么（a、b 是 32 位浮点数） :

从 xmm1: [-, -, a, b] 到 xmm1: [a, a, b, b]

我找不到任何有用的说明。
我的想法是将 a 和 b 复制到其他寄存器，然后将 xmm1 寄存器移动 4 个字节并移动 a 或 b 到最低 4 个字节。

您正在寻找 unpcklps xmm1, xmm1 (https://www.felixcloutier.com/x86/unpcklps) 来交错寄存器中的低位元素：
low 元素 -> bottom 2, 2nd lowest to high 2.

您可以改用 shufps，但在这种情况下也不会更好，并且需要一个立即字节。要复制和随机播放，您可以使用 pshufd，但在一些 CPU 上，FP 指令之间的整数指令速度较慢（但它通常仍优于 movaps + unpcklps。要么没有旁路延迟，要么是 1 个周期，而 movaps 将花费相同的延迟，但也会花费一些吞吐量资源。除了 Nehalem，旁路延迟将是 2 个周期。我认为没有任何 CPUs mov-elimination 有绕过洗牌的延迟，但也许有些 AMD 有。）

如果您找不到正确的洗牌指令，请考虑用 C 语言编写它，看看 clang 是否可以为您将其变成洗牌指令。喜欢_mm_set_ps(v[1], v[1], v[0], v[0])。一般来说，它不会总是编译成好的 asm，但值得一试 clang -O3（clang 有一个非常好的 shuffle 优化器）。在这种情况下，GCC 和 clang 都想出了如何用一个 unpcklps xmm0,xmm0 (https://godbolt.org/z/o6PTeP) 而不是可能的灾难来做到这一点。或者与 shufps xmm0,xmm0, 5 相反（5 是 0b00'00'01'01）。

（请注意，将 __m128 索引为 v[idx] 是一个 GNU 扩展，但我只是建议使用 clang 来找到一个好的洗牌。如果你最终想要内在函数，请检查 clang 的asm 然后在你的代码中使用内在的，而不是 _mm_set)

另请参阅 Agner Fog 优化指南中的 SIMD 章节（https://agner.org/optimize/); he has a good table of instructions to consider for different kinds of data movement. Also https://www.officedaytime.com/simd512e/simd.html has a good visual quick-reference, and https://software.intel.com/sites/landingpage/IntrinsicsGuide/ 允许您按类别（Swizzle = shuffle）和 ISA 级别进行过滤（因此您可以排除 AVX512，它具有每个内在函数的无数版本有掩蔽。）

另请参阅 https://whosebug.com/tags/sse/info 以获得这些链接和更多信息。

如果您不太了解可用的指令（以及 CPU 架构/性能调整细节），您最好使用带有内在函数的 C.当您想出一种效率较低的随机播放方法时，编译器可以找到更好的方法。例如编译器有望为您将 _mm_shuffle_ps(v,v, _MM_SHUFFLE(1,1,0,0)) 优化为 unpcklps。

很少有手写 asm 是正确的选择，尤其是对于 x86。 编译器通常在内部函数方面做得很好，尤其是 GCC 和 clang。如果您不知道 unpcklps 的存在，那么您可能距离轻松/常规地击败编译器还有很长的路要走。

将 xmm 寄存器的低两个 32 位浮点数扩展到整个 xmm 寄存器

Expand the lower two 32-bit floats of an xmm register to the whole xmm register

x86

assembly

sse