PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.16k stars 2.94k forks source link

[Question]: ERNIE-3.0模型压缩 #3782

Closed yonger001 closed 1 year ago

yonger001 commented 2 years ago

请提出你的问题

1.关于ERNIE-3.0模型的量化过程疑问: 2022-11-16 16-52-11屏幕截图 2022-11-16 16-53-33屏幕截图 Q1:针对ERNIE-3.0压缩性能对比的上述两张表格,首张表格中第6行测试了“ERNIE 3.0-Medium+裁剪+量化+INT8”策略,TNEWS对应精度为57.26,第二张表格的第7行测试了“ERNIE 3.0-Medium+裁剪+INT8”策略,TNEWS对应精度为57.26,这两种策略是否相同? Q2:此处出现的量化是否就是TensorRT量化,查看之前提交日志,有提到GPU性能时基于TensorRT完成的,具体对应哪个策略? Q3:此处出现的量化和INT8差异?

LiuChiachi commented 2 years ago

感谢关注~ Q1:相同; Q2:此处的量化方法是静态离线量化,经过量化得到的paddle量化模型。GPU下INT8的精度是基于PaddleInference+TensorRT预测库,对这个paddle量化模型测试的。 Q3:+int8只是想强调预测的精度是部分INT8,就是对量化模型进行预测的意思。

yonger001 commented 2 years ago

感谢及时回复,还是不太明白 Q1:上述Q2中的静态离线量化是Paddle自己的量化算法吗?这个和TensorRT的量化算法不一样? Q2:+INT8的过程是否可以理解为:在PTQ量化模型的基础上又执行了一遍TRT的INT8量化操作? 已经迷糊了~~~

LiuChiachi commented 2 years ago

Q1:是paddle自己的方法,在很多NLU任务上基本是精度无损的,PaddleNLP进行了封装,你看的这个例子就是使用的demo。 Q2:PTQ之后只是得到了一个量化模型,+INT8表示使用INT8精度进行推理,没有再对模型处理了

yonger001 commented 2 years ago

谢谢回复,请问是否有对比过ERNIE-3.0模型在“TRT自带量化+INT8预测”和“Paddle量化+INT8”两种方法下的性能表现?

wawltor commented 2 years ago

谢谢回复,请问是否有对比过ERNIE-3.0模型在“TRT自带量化+INT8预测”和“Paddle量化+INT8”两种方法下的性能表现?

Paddle量化+INT8 相比于 TRT自带量化+INT8预测 性能基本一致,因为都是使用了TRT作为backend

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。