如何将 double/float 舍入为二进制精度？

Question

我正在为对浮点数执行计算的代码编写测试。不出所料，结果很少是准确的，我想在计算结果和预期结果之间设置一个公差。我已经验证，在实践中，双精度，结果在最后两位有效小数四舍五入后总是正确的，但通常在最后一位小数四舍五入后。我知道 doubles 和 floats 的存储格式，以及舍入的两种主要方法（通过 BigDecimal 精确，通过乘法更快，math.round 和除法）。然而，由于尾数是以二进制形式存储的，有没有办法使用基数 2 而不是 10 来执行舍入？

只需清除最后 3 位几乎总是会产生相同的结果，但如果我可以将其推送而不是 'add 2' 到尾数（如果设置了第二个最低有效位），我可能会达到精度极限.这很容易，但我不知道如何处理溢出（当设置了所有位 52-1 时）。

首选 Java 解决方案，但如果我理解的话，我可能可以将其移植到另一种语言。

编辑：作为问题的一部分，我的代码在算术方面是通用的（依赖于 scala.Numeric 类型 class），我所做的是将答案中建议的舍入合并到一个新的数字类型中，这携带计算出的数字（在本例中为浮点数）和舍入误差，本质上代表一个范围而不是一个点。然后我覆盖等于，以便如果两个数字的误差范围重叠（并且它们共享算术，即数字类型），则两个数字相等。

Answer 1

是的，四舍五入二进制数字比通过 BigDecimal 更有意义，如果您不担心在 Double.MAX_VALUE.[=21= 的小因数内，可以非常有效地实施]

您可以在 Java（未测试）中使用以下顺序舍入浮点 double 值 x：

double t = 9 * x; // beware: this overflows if x is too close to Double.MAX_VALUE
double y = x - t + t;

在此序列之后，y 应包含舍入值。调整常量 9 中两个设置位之间的距离，以调整四舍五入的位数。值 3 四舍五入一位。值 5 四舍五入两位。值 17 四舍五入，依此类推。

此指令序列归功于 Veltkamp，通常用于“Dekker 乘法”。 This page 有一些参考资料。

如何将 double/float 舍入为二进制精度？

How to round a double/float to BINARY precision?

java

floating-point

precision

double

rounding