混合量化经验总结

[复制链接] · 发表于 2019-12-18 11:42:13

尝试混合量化后解决了速度与精度的折中，分享几点干货如下:
（1）如果非量化Convation, 需要将它的input节点的out项，本层的weight/bias从量化配置文件中删除。

（2）如果删除下面grap的pool, 需要将conv out0也删除。

(3) 非量化层，要求input/output layer均为非量化

eg: 非量化eltwise，需要非量化输入两个ReLu, 以及非量化输出Convolution weights/bias.
(4) Convoluation 的量化包括weights/bias/output
(5) 没有weights/bias 的layer, 只有output需要量化

只看该作者 · 发表于 2021-7-22 18:23:01

楼主你好，我在做混合量化时将网络前面一些层量化类型设置为float32作为非量化层，运行检测时会报错：ASSERT in NeuralNet.cpp.decompressKernel(1763): zrlBitWidth <= m_KernelZRLMaxBitWidth
如果只设置网络后面输出层为非量化层就没问题。这个该咋设置呢？