32位机器如何计算双精度数

How does a 32-bit machine compute a double precision number

如果我只有 32 位机器，cpu 如何计算双精度数？这个数字是 64 位宽。 FPU 是如何处理的？

更一般的问题是，如何计算比我的 alu 更宽的东西。但是我完全理解整数方式。您只需 split 即可。然而对于浮点数，你有指数和尾数，应该以不同的方式处理。

即使是 8 位计算机也提供扩展精度（80 位）浮点运算，通过编写代码来进行计算。

现代 32 位计算机（x86、ARM、较旧的 PowerPC 等）具有 32 位整数和 64 或 80 位浮点硬件。

并非“32 位机器”中的所有内容都必须是 32 位的。 x87 风格的 FPU 从一开始就不是“32 位”的，那是在 AMD64 出现之前的很长时间。它总是能够在 80 位扩展双精度上进行数学运算，并且它曾经是一个单独的芯片，所以根本没有机会使用主 ALU。

是的，它比 ALU 宽，但它不通过 ALU，浮点单元使用它们自己的电路，它们的宽度与它们需要的一样宽。这些circuits也比整数电路复杂得多，而且它们在组件中并没有真正与整数ALU重叠

我们先看整数运算，因为它更简单。在你的 32 位 ALU 内部，有 32 个带有进位位的独立逻辑单元，它们会向上溢出链。 1 + 1 -> 10，进位但结转到第二个逻辑单元。整个 ALU 也会有一个进位位输出，你可以用它来做任意长度的数学运算。 but 宽度的唯一真正限制是在一个周期内可以使用多少位。要进行 64 位数学运算，您需要 2 个或更多周期，并且需要自己执行进位逻辑。

看来问题只是"how does FPU work?"，与位宽无关

FPU做加法、乘法、除法等，每个都有不同的算法。

加法

（也是减法）
给定两个带指数和尾数的数字：

x1 = m1 * 2 ^ e1
x2 = m2 * 2 ^ e2

，第一步归一化：

x1 = m1 * 2 ^ e1
x2 = (m2 * 2 ^ (e2 - e1)) * 2 ^ e1（假设 e2 > e1）

然后可以加上尾数：

x1 + x2 = (whatever) * 2 ^ e1

然后，应将结果转换为有效的 mantissa/exponent 形式（例如，（任何）部分可能需要介于 2^23 和 2^24 之间）。如果我没记错的话，这叫做 "renormalization" 。这里还应该检查上溢和下溢。

乘法

只需将尾数相乘并加上指数即可。然后将相乘后的尾数重新归一化。

师

对尾数进行"long division"算法，然后减去指数。可能不需要重新归一化（取决于您如何实现长除法）。

Sine/Cosine

将输入转换为范围 [0...π/2]，然后运行 CORDIC 算法就可以了。

等等

计算机体系结构中有几个不同的概念可以用位来衡量，但其中 none 无法处理 64 位浮点数。虽然这些概念可能是相关的，但对于这个问题还是值得单独考虑的。

通常，“32 位”意味着地址是 32 位。这将每个进程的虚拟内存限制为 2^32 个地址。它是对程序产生最直接影响的度量，因为它会影响指针的大小和内存数据的最大大小。与浮点数的处理完全无关

另一个可能的含义是内存和 CPU 之间传输数据的路径宽度。这不是对数据结构大小的硬性限制——一个数据项可能需要多次传输。例如，Java 语言规范不需要原子加载和存储 double 或 long。参见 17.7. Non-Atomic Treatment of double and long。 double 可以使用两个单独的 32 位传输在内存和处理器之间移动。

第三个含义是通用寄存器大小。许多体系结构对浮点数使用单独的寄存器。即使通用寄存器只有 32 位，浮点寄存器可以更宽，或者可以将两个 32 位浮点寄存器配对来表示一个 64 位数字。

这些概念之间的典型关系是，具有64位内存地址的计算机通常具有64位通用寄存器，因此一个指针可以容纳一个通用寄存器。

32位机器如何计算双精度数

How does a 32-bit machine compute a double precision number

c++

hardware

double

加法

乘法

师

Sine/Cosine

等等