如何安全地将 float64 舍入并固定到 int64?

How to safely round-and-clamp from float64 to int64?

这个问题是关于 python/numpy,但它也可能适用于其他语言。

如何改进以下代码以安全地将大浮点值限制到 转换期间的最大 int64 值? (理想情况下,它应该仍然有效。)

import numpy as np

def int64_from_clipped_float64(x, dtype=np.int64):
  x = np.round(x)
  x = np.clip(x, np.iinfo(dtype).min, np.iinfo(dtype).max)
  # The problem is that np.iinfo(dtype).max is imprecisely approximated as a
  # float64, and the approximation leads to overflow in the conversion.
  return x.astype(dtype)

for x in [-3.6, 0.4, 1.7, 1e18, 1e25]:
  x = np.array(x, dtype=np.float64)
  print(f'x = {x:<10}  result = {int64_from_clipped_float64(x)}')

# x = -3.6        result = -4
# x = 0.4         result = 0
# x = 1.7         result = 2
# x = 1e+18       result = 1000000000000000000
# x = 1e+25       result = -9223372036854775808

问题是最大的np.int64是263 - 1,不能用浮点数表示。同样的问题不会发生在另一端,因为 -263 是完全可以表示的。

浮点数space(用于检测)和整数space(用于校正)的剪裁一半也是如此:

def int64_from_clipped_float64(x, dtype=np.int64):
    assert x.dtype == np.float64

    limits = np.iinfo(dtype)
    too_small = x <= np.float64(limits.min)
    too_large = x >= np.float64(limits.max)
    ix = x.astype(dtype)
    ix[too_small] = limits.min
    ix[too_large] = limits.max
    return ix

这是 orlp@ 的答案的概括,可以安全地剪辑转换自 任意浮点数到任意整数,并支持标量值作为输入。

该函数对于将np.float32转换为np.int32也很有用 因为它避免了创建中间 np.float64 值, 如计时测量所示。

def int_from_float(x, dtype=np.int64):
  x = np.asarray(x)
  assert issubclass(x.dtype.type, np.floating)
  input_is_scalar = x.ndim == 0
  x = np.atleast_1d(x)

  imin, imax = np.iinfo(dtype).min, np.iinfo(dtype).max
  fmin, fmax = x.dtype.type((imin, imax))
  too_small = x <= fmin
  too_large = x >= fmax
  ix = x.astype(dtype)
  ix[too_small] = imin
  ix[too_large] = imax
  return ix.item() if input_is_scalar else ix


print(int_from_float(np.float32(3e9), dtype=np.int32))  # 2147483647
print(int_from_float(np.float32(5e9), dtype=np.uint32))  # 4294967295
print(int_from_float(np.float64(1e25), dtype=np.int64))  # 9223372036854775807

a = np.linspace(0, 5e9, 1_000_000, dtype=np.float32).reshape(1000, 1000)

%timeit int_from_float(np.round(a), dtype=np.int32)
# 100 loops, best of 3: 3.74 ms per loop

%timeit np.clip(np.round(a), np.iinfo(np.int32).min, np.iinfo(np.int32).max).astype(np.int32)
# 100 loops, best of 3: 5.56 ms per loop