Jermmy / pytorch-quantization-demo

A simple network quantization demo using pytorch from scratch.
Apache License 2.0
497 stars 96 forks source link

量化输出的模型更大 #16

Closed Ysnower closed 1 year ago

Ysnower commented 2 years ago

执行train.py生成的mnist_cnnbn.pt有105.7kb 执行quantization_aware_training.py得到的mnist_cnnbn_qat.pt有121.6kb,请问大佬正常吗 量化应该是能减小模型提升推理速度

Jermmy commented 2 years ago

正常的,我的代码都是用float存的整数,量化后还要存个各种量化参数,所以体积是更大的,而且推理速度应该会更慢。 工业界的量化框架在转芯片模型的时候会用int存整数,体积会变小,推理速度也更快。