Closed yonger001 closed 1 year ago
感谢关注~ Q1:相同; Q2:此处的量化方法是静态离线量化,经过量化得到的paddle量化模型。GPU下INT8的精度是基于PaddleInference+TensorRT预测库,对这个paddle量化模型测试的。 Q3:+int8只是想强调预测的精度是部分INT8,就是对量化模型进行预测的意思。
感谢及时回复,还是不太明白 Q1:上述Q2中的静态离线量化是Paddle自己的量化算法吗?这个和TensorRT的量化算法不一样? Q2:+INT8的过程是否可以理解为:在PTQ量化模型的基础上又执行了一遍TRT的INT8量化操作? 已经迷糊了~~~
Q1:是paddle自己的方法,在很多NLU任务上基本是精度无损的,PaddleNLP进行了封装,你看的这个例子就是使用的demo。 Q2:PTQ之后只是得到了一个量化模型,+INT8表示使用INT8精度进行推理,没有再对模型处理了
谢谢回复,请问是否有对比过ERNIE-3.0模型在“TRT自带量化+INT8预测”和“Paddle量化+INT8”两种方法下的性能表现?
谢谢回复,请问是否有对比过ERNIE-3.0模型在“TRT自带量化+INT8预测”和“Paddle量化+INT8”两种方法下的性能表现?
Paddle量化+INT8 相比于 TRT自带量化+INT8预测 性能基本一致,因为都是使用了TRT作为backend
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。
请提出你的问题
1.关于ERNIE-3.0模型的量化过程疑问: Q1:针对ERNIE-3.0压缩性能对比的上述两张表格,首张表格中第6行测试了“ERNIE 3.0-Medium+裁剪+量化+INT8”策略,TNEWS对应精度为57.26,第二张表格的第7行测试了“ERNIE 3.0-Medium+裁剪+INT8”策略,TNEWS对应精度为57.26,这两种策略是否相同? Q2:此处出现的量化是否就是TensorRT量化,查看之前提交日志,有提到GPU性能时基于TensorRT完成的,具体对应哪个策略? Q3:此处出现的量化和INT8差异?