执行quantize_torch_model.py后，pytorch模型export出的onnx模型并不是QNN模型

openppl-public / ppq

PPL Quantization Tool (PPQ) is a powerful offline neural network quantization tool.

Apache License 2.0

1.44k stars 223 forks source link

执行quantize_torch_model.py后，pytorch模型export出的onnx模型并不是QNN模型 #543

Open JiliangNi opened 3 months ago

JiliangNi commented 3 months ago

执行quantize_torch_model.py后，pytorch模型export出的onnx模型并不是QNN模型，虽然export导出了一份json文件和onnx模型，但是有没有办法获得一个QNN量化后的int8模型（体积比原fp32模型小的）？

Donaldkidd commented 3 months ago

你platform那边选QNN平台，然后直接用SNPE_convert_dlc那个工具可以读取你的json和onnx模型转成dlc，QNN 可以用

JiliangNi commented 3 months ago

感谢回答！但是获得一个dcl文件，可能不是我想要的QNN模型。

目前

export_ppq_graph(graph=quantized, platform=PLATFORM, graph_save_to='Output/QDQ.onnx', config_save_to='Output/QDQ.json')

如果 PLATFORM = TargetPlatform.QNN_DSP_INT8， quantize_torch_model.py会export出一个 .json 和 .onnx(看起来和fp32原模型一样)；如果PLATFORM = TargetPlatform.ONNXRUNTIME，会生成一个.json 和 .onnx(体积比原模型小了，且是一个QDQ模型)，如图 QDQ

但想问一下，如何生成一个QNN模型，比如intel的neural-compressor量化工具可以生成的那种QNN模型，如图： QNN

JiliangNi commented 3 months ago

对了，还想问个问题：

其实在使用Aimet工具量化，然后导出onnx时，也是导出一份encodings + fp32模型。用咱们ppl的工具也会导出一份json + fp32模型。这个我不是很理解，导出的内容有什么意义或者有什么用途。因为之前我用的intel量化工具，输入fp32模型，导出int8 QNN模型，体积变小，也可以直接推理和部署。Aimet和ppl导出的两份文件是否可以再次转成QNN模型，或者有别的用法？

Donaldkidd commented 3 months ago

根据我目前的了解Aimet这个东西不能直接生成一个int8模型，而是需要读取那个json文件（记录的是你的模型的量化参数）+你输出的量化模型，然后用SNPE-convert-dlc那个工具，读取这两个文件这才能生成一个int8的模型。PPL选QNN_DSP_INT8和Aimet是一样的

JiliangNi commented 3 months ago

十分感谢大佬解答了我一直带有的疑惑！我研究一下SNPE_convert_dlc如何生成int8模型吧，十分感谢！

JiliangNi commented 3 months ago

您好，尝试了用SNPE-convert-dlc的工具，这个目前能转化出dlc文件，但想要一个QNN的int8 ONNX模型，好像还不行，是我使用的方式不对吗？

Donaldkidd commented 3 months ago

用QNN converter试试

JiliangNi commented 3 months ago

是这个工具吗 https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/converters.html

可是并不能生成onnx模型。

找了很久，好像目前很难找到QDQ 转Qoperator ONNX的工具，但是这么通用的两种format，怎么会没有转化工具呢

Donaldkidd commented 3 months ago

这个model.cpp QNN可以用我记得