量化输出的模型更大

Jermmy / pytorch-quantization-demo

A simple network quantization demo using pytorch from scratch.

Apache License 2.0

497 stars 96 forks source link

Closed Ysnower closed 1 year ago

Ysnower commented 2 years ago

执行train.py生成的mnist_cnnbn.pt有105.7kb 执行quantization_aware_training.py得到的mnist_cnnbn_qat.pt有121.6kb，请问大佬正常吗量化应该是能减小模型提升推理速度

Jermmy commented 2 years ago

正常的，我的代码都是用float存的整数，量化后还要存个各种量化参数，所以体积是更大的，而且推理速度应该会更慢。工业界的量化框架在转芯片模型的时候会用int存整数，体积会变小，推理速度也更快。