为什么 `PSHUFD` 指令没有固有的浮点数？

Why is there no floating point intrinsic for `PSHUFD` instruction?

我面临的任务是打乱一个 _m128向量并将结果存储在另一个向量中。

在我看来，有两种基本方法可以打乱压缩浮点 _m128 向量：

_mm_shuffle_ps，它使用 SHUFPS 指令，如果您只想从一个向量中获取值，则该指令不一定是最佳选择：它从目标操作数中获取两个值，这意味着额外的移动.
_mm_shuffle_epi32，它使用 PSHUFD 指令，似乎完全符合这里的预期，并且 latency/throughput 比 SHUFPS.

然而，后者内在函数适用于整数向量 (_m128i)，并且似乎没有浮点对应项，因此将它与 _m128 一起使用需要一些丑陋的显式转换。此外，没有这样的对应物这一事实可能意味着存在一些我不知道的正当理由。

问题是为什么没有内在函数来打乱一个浮点向量并将结果存储在另一个向量中？
如果_mm_shuffle_ps(x,x, ...)能生成PSHUFPD，能保证吗？
如果 PSHUFD 不应该用于浮点值，那是什么原因？

谢谢！

内部函数应该与指令一对一映射。 _mm_shuffle_ps 生成 PSHUFD 是非常不可取的。它应该始终生成 SHUFPS。该文档并未表明存在其他情况。

当数据转换为单精度或双精度浮点数时，某些处理器会出现性能下降。这是因为处理器使用包含数据的 FP 分类的内部寄存器来扩充 SSE 寄存器，例如零或 NaN 或无穷大或正常。切换类型时，您会在执行该步骤时遇到停顿。我不知道现代处理器是否仍然如此，但您可以查阅英特尔架构优化手册以获取该信息。

SHUFPS 在现代处理器上并不比 PSHUFD 慢很多。根据 Agner Fog 的指令表 (http://www.agner.org/optimize/instruction_tables.pdf)，它们在 Haswell（第 4 代 Core i7）上具有相同的延迟和吞吐量。在 Nehalem（第一代 Core i7）上，它们具有相同的延迟，但 PSHUFD 的吞吐量为 2 个/周期，而 SHUFPS 的吞吐量为 1 个/周期。因此，即使您忽略了与切换类型相关的性能损失，也不能说在所有处理器中一条指令优于另一条指令。

还有一种在 __m128、__m128d 和 __m128i 之间进行转换的方法：_mm_castXX_YY (https://software.intel.com/en-us/node/695375?language=es) 其中 XX 和 YY都是 ps、pd 或 si128 中的每一个。例如，_mm_castps_pd()。这确实是一个坏主意，因为 PSHUFD 运行速度更快的处理器会遭受与之后切换回 FP 相关的性能损失。换句话说，没有比 SHUFPS 更快的方法来进行 SHUFPS 了。

为什么 `PSHUFD` 指令没有固有的浮点数？

Why is there no floating point intrinsic for `PSHUFD` instruction?

c++

assembly

sse

vectorization

intrinsics