SSE 指令 MOVSD（扩展：x86、x86-64 上的浮点标量和向量运算）

Question

我对 MOVSD 汇编指令有些困惑。我写了一些计算一些矩阵乘法的数字代码，只是使用没有 SSE 内在函数的普通 C 代码。我什至没有包含用于编译的 SSE2 内部函数的头文件。但是当我检查汇编器输出时，我看到：

1）使用128位向量寄存器XMM； 2) SSE2指令MOVSD被调用。

我知道 MOVSD 本质上是在单双精度浮点数上运行。它只使用 XMM 寄存器的低 64 位并将高 64 位设置为 0。但我只是不明白两件事：

1) 我从不给编译器任何使用 SSE2 的提示。另外，我使用的是 GCC 而不是英特尔编译器。据我所知，intel编译器会自动寻找向量化的机会，但GCC不会。那么 GCC 是怎么知道使用 MOVSD 的呢？？或者，这条 x86 指令是否早在 SSE 指令集之前就已存在，而 SSE2 中的 _mm_load_sd() 内在函数只是为了向后兼容使用 XMM 寄存器进行标量计算？

2) 为什么编译器不使用其他浮点寄存器，要么是80位浮点栈，要么是64位浮点寄存器？？为什么必须使用 XMM 寄存器（通过设置高 64 位 0 并实质上浪费该存储空间）来收费？ XMM 是否提供更快的访问速度？

顺便问一下，我还有一个关于 SSE2 的问题。我只是看不出 _mm_store_sd() 和 _mm_storel_sd() 之间的区别。两者都将低 64 位值存储到一个地址。有什么不同？性能差异？？对齐差异??

谢谢。

更新 1：

好吧，很明显，当我第一次问这个问题时，我缺乏一些关于 CPU 如何管理浮点运算的基本知识。所以专家们倾向于认为我的问题是无意义的。由于我什至没有包括最短的示例 C 代码，因此人们可能也会认为这个问题含糊不清。在这里，我将提供作为答案，希望这对任何不清楚现代 CPUs.

浮点运算的人都有用。

Answer 1

现代 CPU 上的浮点 scalar/vector 处理回顾

矢量处理的思想可以追溯到很久以前 vector processors, but these processors had been superseded by modern architectures with cache systems. So we focus on modern CPUs, especially x86 and x86-64. These architectures are the main stream in high performance scientific computing。

自 i386 以来，Intel 引入了浮点堆栈，其中可以保存高达 80 位宽的浮点数。这个堆栈通常被称为 x87 or 387 floating point "registers", with a set of x87 FPU instructions。 x87 堆栈不像通用寄存器那样是真正的、可直接寻址的寄存器，因为它们在堆栈上。访问寄存器 st(i) 是通过偏移堆栈顶部寄存器 %st(0) 或简单地 %st。借助交换当前堆栈顶部 %st 和某个偏移寄存器 %st(i) 之间的内容的 FXCH 指令，可以实现随机访问。但是 FXCH 可以施加一些性能损失，尽管最小化。 x87 堆栈通过默认以 80 位精度计算中间结果来提供高精度计算，以最大限度地减少数值不稳定算法中的舍入误差。但是，x87 指令完全是标量。

矢量化的第一个尝试是 MMX instruction set，它实现了整数向量运算。 MMX下的向量寄存器是64位宽的寄存器MMX0，MMX1，...，MMX7。每个都可用于保存 64 位整数，或 "packed" 格式的多个较小的整数。然后可以将一条指令同时应用于两个 32 位整数、四个 16 位整数或八个 8 位整数。所以现在有用于标量整数运算的传统通用寄存器，以及用于没有共享执行资源的整数向量运算的新 MMX。但是 MMX 与标量 x87 FPU 操作共享执行资源：每个 MMX 寄存器对应于 x87 寄存器的低 64 位，x87 寄存器的高 16 位未使用。这些 MMX 寄存器均可以直接寻址。但是别名使得在同一应用程序中处理浮点和整数向量运算变得困难。为了最大限度地提高性能，程序员通常只在一种模式或另一种模式下使用处理器，尽可能长时间地推迟它们之间相对较慢的切换。

后来，SSE 在 x87 堆栈的一侧创建了一组单独的 128 位宽寄存器 XMM0–XMM7。 SSE 指令专门专注于单精度浮点运算（32 位）；整数向量运算仍然使用 MMX 寄存器和 MMX 指令集执行。但现在这两个操作可以同时进行，因为它们不共享执行资源。要知道SSE不仅可以做浮点向量运算，还可以做浮点标量运算。本质上它提供了一个新的浮动操作发生的地方，x87堆栈不再是执行浮动操作的优先选择。使用 XMM 寄存器进行标量浮点运算比使用 x87 堆栈更快，因为所有 XMM 寄存器都更容易访问，而 x87 堆栈不能在没有 FXCH 的情况下随机访问。当我发布问题时，我是显然不知道这个事实。另一个我不清楚的概念是通用寄存器是 integer/address 寄存器。即使它们在 x86-64 上是 64 位的，它们也不能容纳 64 位浮点数。主要原因是通用寄存器关联的执行单元是ALU（arithmetic & logical unit），不是浮点运算。

SSE2 是一个重大进步，因为它扩展了向量数据类型，因此 SSE2 指令，无论是标量还是向量，都可以使用所有 C 标准数据类型。这种扩展实际上使 MMX 过时了。此外，x87 堆栈不再像以前那么重要了。由于有两个可以进行浮点运算的替代位置，您可以向编译器指定您的选项。例如对于 GCC，使用 flag

进行编译

-mfpmath=387

将在旧版 x87 堆栈上安排浮点运算。 请注意，这似乎是 32 位 x86 的默认设置，即使 SSE 已经可用。例如，我有一台 2007 年生产的 Intel Core2Duo 笔记本电脑，它已经配备了SSE 发布到版本 SSE4，而 GCC 仍将默认使用 x87 堆栈，这使得科学计算不必要地变慢。在这种情况下，我们需要使用 flag

进行编译

-mfpmath=sse

并且 GCC 将在 XMM 寄存器上安排浮点运算。 64 位 x86-64 用户无需担心此类配置，因为这是 x86-64 上的默认设置。这样的信号只会影响标量浮点运算。如果我们使用向量指令编写代码并使用 flag

编译代码

-msse2

那么 XMM 寄存器将是唯一可以进行计算的地方。换句话说，此标志打开 -mfpmath=sse。有关详细信息，请参阅 GCC's configuration of x86, x86-64. For examples of writing SSE2 C code, see my other post 。

SSE 指令集虽然非常有用，但并不是最新的矢量扩展。 AVX，advanced vector extensions enhances SSE by providing 3-operands and 4 operands instructions. See number of operands in instruction set if you are unclear of what this means. 3-operands instruction optimizes the commonly seen fused multiply-add (FMA) operation in scientific computing by 1) using 1 fewer register; 2) reducing the explicit amount of data movement between registers; 3) speeding up FMA computations in itself. For example of using AVX, see .

SSE 指令 MOVSD（扩展：x86、x86-64 上的浮点标量和向量运算）

SSE instruction MOVSD (extended: floating point scalar & vector operations on x86, x86-64)

c

assembly

sse

x86-64

sse2