如何 select 半精度(BFLOAT16 vs FLOAT16)训练模型?

How to select half precision (BFLOAT16 vs FLOAT16) for your trained model?

您将如何确定最适合您的推理模型的精度? BF16 和 F16 都占用两个字节,但它们对小数和指数使用的位数不同。

范围会有所不同,但我试图理解为什么人们会选择一个而不是另一个。

谢谢

    |--------+------+----------+----------|
    | Format | Bits | Exponent | Fraction |
    |--------+------+----------+----------|
    | FP32   |   32 |        8 |       23 |
    | FP16   |   16 |        5 |       10 |
    | BF16   |   16 |        8 |        7 |
    |--------+------+----------+----------|

Range
bfloat16: ~1.18e-38 … ~3.40e38 with 3 significant decimal digits.
float16:  ~5.96e−8 (6.10e−5) … 65504 with 4 significant decimal digits precision.

bfloat16 通常更易于使用,因为它可以作为 float32 的直接替代品。如果您的代码不创建 nan/inf 数字或将非 0 转换为具有 float320,则不应使用 bfloat16粗略地说。所以,如果你的硬件支持它,我会选择它。

如果您选择 float16,请查看 AMP