Qwen-1.8B模型SFT后推理速度变慢

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

[X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

[X] 我已经搜索过FAQ | I have searched FAQ

当前行为 | Current Behavior

官方Qwen-1.8B经过SFT后测试推理速度变慢，由50+token/s将为30+token/s

测速结果如下：

Qwen-1.8B
Qwen-1.8B-SFT

期望行为 | Expected Behavior

1.请帮忙解释下原因；

2.请提供解决问题办法；

复现方法 | Steps To Reproduce

1.下载官方Qwen-1_8B模型 2.训练配置【finetune/finetune_lora_ds.sh】修改--model_max_length 4096，其他保持默认。 3.训练完成后，使用官方提供【profile.py】测试速度

运行环境 | Environment

采用官方镜像【qwen121】，由于Transformers版本存在分布式保存bug，更换Transformers版本
- OS:Ubuntu 20.04
- Python:3.8.10
- Transformers:4.36.2
- PyTorch:2.1.2+cu121
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):12.1

备注 | Anything else?

No response

QwenLM / Qwen

Qwen-1.8B模型SFT后推理速度变慢 #981