量化后nb模型在A311d上npu结果有误

PaddlePaddle / Paddle-Lite

PaddlePaddle High Performance Deep Learning Inference Engine for Mobile and Edge (飞桨高性能深度学习端侧推理引擎）

https://www.paddlepaddle.org.cn/lite

Apache License 2.0

6.94k stars 1.61k forks source link

量化后nb模型在A311d上npu结果有误 #10244

Closed deanSunny closed 5 months ago

deanSunny commented 1 year ago

版本、环境信息： 1）paddle 环境
- paddle-bfloat (0.1.7)
- paddlepaddle (2.4.2)
- paddleslim (2.4.1)
- x2paddle (1.4.1)
- paddle-lite develop 3d20634 2）Host 环境：晶晨A311d android npu驱动 6.4.6.2.2.2.1 环境没问题，已验证官方模型结果正确，且有其他非官方模型部署成功并且npu结果正确
模型信息 1）test.nb 2）模型链接: https://pan.baidu.com/s/1AIaKRxfOwPFxmoXOOWJwvg?pwd=tasv 提取码: tasv 复制这段内容后打开百度网盘手机App，操作更方便哦
复现信息：
问题描述：图示为计算结果为onnx和a311d跑出来的两张图之间的余弦相似度 opt导出-valid_targets=arm，只跑在arm上的结果正确

opt导出-valid_targets=verisilicon_timvx,arm，跑npu的结果错误

是否timvx有op存在bug望告知，多谢

yingshengBD commented 1 year ago

首先，目前看普通的cnn 来说，timvx本身没有问题，而是量化导致了精度问题有些模型就是对量化非常敏感，会导致精度不可用。特别是芯原timvx这种必须全量化的。请问你如何使用paddleslim ？采用了何种量化方式？目前这个模型还没拉下来，下载速度有点慢- -

deanSunny commented 1 year ago

首先，目前看普通的cnn 来说，timvx本身没有问题，而是量化导致了精度问题有些模型就是对量化非常敏感，会导致精度不可用。特别是芯原timvx这种必须全量化的。请问你如何使用paddleslim ？采用了何种量化方式？目前这个模型还没拉下来，下载速度有点慢- -

几种algo均尝试了，上传的是hist的 weight_quantize_type=abs_max。channel_wise_abs_max 量化出来的模型在板子上跑的非常慢 round_type=round。adaround跑出来arm的结果都不对 optimize_model=True 其他都是默认

valid_targets=x86上跑的结果与arm和onnx一致。如果是量化问题，那意思是x86上跟arm上只有部分op跑的int8，其他跑的float32？否则就是timvx或者是硬件对op支持的问题了

yingshengBD commented 1 year ago

channel wise可以支持需要加环境变量 export VIV_VX_ENABLE_GRAPH_TRANSFORM=-pcq:1; export VIV_VX_SET_PER_CHANNEL_ENTROPY=100 export VERISILICON_TIMVX_BATCHNORM_FUSION_MAX_ALLOWED_QUANT_SCALE_DEVIATION=3000000 新版的demo中应该是带了这些变量了看了下你的model，如果channel wise还是精度不行，那就只能换模型了 1，建议不要大量的split之后再concat计算 2，channel调小一点