QwenLM / Qwen

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
Apache License 2.0
13.59k stars 1.11k forks source link

Qwen-1.8B模型SFT后推理速度变慢 #981

Closed potter2010 closed 6 months ago

potter2010 commented 8 months ago

是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

官方Qwen-1.8B经过SFT后测试推理速度变慢,由50+token/s将为30+token/s

测速结果如下:

期望行为 | Expected Behavior

1.请帮忙解释下原因;

2.请提供解决问题办法;

复现方法 | Steps To Reproduce

1.下载官方Qwen-1_8B模型 2.训练配置【finetune/finetune_lora_ds.sh】修改--model_max_length 4096,其他保持默认。 3.训练完成后,使用官方提供【profile.py】测试速度

运行环境 | Environment

采用官方镜像【qwen121】,由于Transformers版本存在分布式保存bug,更换Transformers版本
- OS:Ubuntu 20.04
- Python:3.8.10
- Transformers:4.36.2
- PyTorch:2.1.2+cu121
- CUDA (`python -c 'import torch; print(torch.version.cuda)'`):12.1

备注 | Anything else?

No response

jklj077 commented 8 months ago

看下config.json有没有不同,use_cache有没有开。另外LoRA如果没merge的话,可以merge后再测速。