物联网深度学习-76-大模型量化之压缩映射方法和量化校准方法简介

伤心客 发表于 2024-12-27 23:04:15

深度学习-76-大模型量化之压缩映射方法和量化校准方法简介

1 量化技能

Quantization （量化技能）在机器学习和深度学习领域是一种用于低落计算复杂度、淘汰内存占用、加快推理的优化方法，尤其当模型部署在资源有限的设备（如移动设备或嵌入式体系）时非常有用。
在大模型的应用中，通过将模型的权重和激活从高精度（如 32 位浮点数，FP32）转换为低精度（如 16 位浮点数，FP16 或 8 位整数，INT8），可以极大地淘汰计算量和内存带宽需求。
量化的核心目的是将模型中的浮点数权重和激活值转换为低精度数值表示，同时保持模型的准确性和性能尽可能不受影响。更具体一点来说，量化通过使用更小的数据类型（如 INT8、FP16 等）表示模型中的权重和激活值，而不是标准的 32 位浮点数。
1.1 大模型的参数

我们常说的”大模型“，在模型规模方面，通常拥有数十亿参数（主要是权重），存储成本相当高昂；
在推理过程中，激活值作为输入与权重的乘积生成，其巨细同样相当可观。
这些值由“位-bits”或二进制数字表示。
IEEE-754 标准描述了位如何表示三种功能之一来表示该值：符号(sign)、指数(exponent) 、

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

深度学习-76-大模型量化之压缩映射方法和量化校准方法简介