对于模型文件的量化压缩,过程比较简单。我们发现模型属于同一层的参数值会分布在一个较小的区间内,比如-3, 5之间,我们可以记下这个最小值和最大值,在采用8位数量化(可以有其他选择)的情况下,可以把同一层的所有参数都线性映射(也可以采用非线性映射进一步压缩空间)到区间[-3, 5]之间的255个8位整数中的最接近的一个数。

参考