如何 select 半精度(BFLOAT16 vs FLOAT16)训练模型?
How to select half precision (BFLOAT16 vs FLOAT16) for your trained model?
您将如何确定最适合您的推理模型的精度? BF16 和 F16 都占用两个字节,但它们对小数和指数使用的位数不同。
范围会有所不同,但我试图理解为什么人们会选择一个而不是另一个。
谢谢
|--------+------+----------+----------|
| Format | Bits | Exponent | Fraction |
|--------+------+----------+----------|
| FP32 | 32 | 8 | 23 |
| FP16 | 16 | 5 | 10 |
| BF16 | 16 | 8 | 7 |
|--------+------+----------+----------|
Range
bfloat16: ~1.18e-38 … ~3.40e38 with 3 significant decimal digits.
float16: ~5.96e−8 (6.10e−5) … 65504 with 4 significant decimal digits precision.
bfloat16
通常更易于使用,因为它可以作为 float32
的直接替代品。如果您的代码不创建 nan/inf
数字或将非 0
转换为具有 float32
的 0
,则不应使用 bfloat16
粗略地说。所以,如果你的硬件支持它,我会选择它。
如果您选择 float16
,请查看 AMP。
您将如何确定最适合您的推理模型的精度? BF16 和 F16 都占用两个字节,但它们对小数和指数使用的位数不同。
范围会有所不同,但我试图理解为什么人们会选择一个而不是另一个。
谢谢
|--------+------+----------+----------|
| Format | Bits | Exponent | Fraction |
|--------+------+----------+----------|
| FP32 | 32 | 8 | 23 |
| FP16 | 16 | 5 | 10 |
| BF16 | 16 | 8 | 7 |
|--------+------+----------+----------|
Range
bfloat16: ~1.18e-38 … ~3.40e38 with 3 significant decimal digits.
float16: ~5.96e−8 (6.10e−5) … 65504 with 4 significant decimal digits precision.
bfloat16
通常更易于使用,因为它可以作为 float32
的直接替代品。如果您的代码不创建 nan/inf
数字或将非 0
转换为具有 float32
的 0
,则不应使用 bfloat16
粗略地说。所以,如果你的硬件支持它,我会选择它。
如果您选择 float16
,请查看 AMP。