Pytorch 模型优化：自动混合精度与量化？

Pytorch Model Optimization: Automatic Mixed Precision vs Quantization?

我正在尝试优化我的 pytorch 模型。我了解量化的基础知识（将 32 位浮点数更改为 16 位或 8 位的其他数据类型），但我不知道这两种方法有何不同或如何选择。

有人可以解释一下区别和应用吗？谢谢。

自动混合精度 (AMP) 的主要目标是减少训练时间。另一方面，量化的目标是提高推理速度。

AMP：并非所有层和操作都需要 fp32 的精度，因此最好使用较低的精度。 AMP 负责为什么操作使用什么精度。它最终有助于加快训练速度。

Mixed precision tries to match each op to its appropriate datatype, which can reduce your network’s runtime and memory footprint.

另外，请注意最大性能增益是在支持 Tensor Core 的 GPU 架构上观察到的。

量化将模型参数中的 32 位浮点数转换为 8 位整数。这将显着减小模型大小并提高推理速度。但是，它可能会严重影响模型的准确性。这就是您可以使用量化感知训练 (QAT) 等技术的原因。休息你可以阅读你分享的教程。