Closed potter2010 closed 6 months ago
官方Qwen-1.8B经过SFT后测试推理速度变慢,由50+token/s将为30+token/s
测速结果如下:
Qwen-1.8B
Qwen-1.8B-SFT
1.请帮忙解释下原因;
2.请提供解决问题办法;
1.下载官方Qwen-1_8B模型 2.训练配置【finetune/finetune_lora_ds.sh】修改--model_max_length 4096,其他保持默认。 3.训练完成后,使用官方提供【profile.py】测试速度
--model_max_length 4096
采用官方镜像【qwen121】,由于Transformers版本存在分布式保存bug,更换Transformers版本 - OS:Ubuntu 20.04 - Python:3.8.10 - Transformers:4.36.2 - PyTorch:2.1.2+cu121 - CUDA (`python -c 'import torch; print(torch.version.cuda)'`):12.1
No response
看下config.json有没有不同,use_cache有没有开。另外LoRA如果没merge的话,可以merge后再测速。
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?
当前行为 | Current Behavior
官方Qwen-1.8B经过SFT后测试推理速度变慢,由50+token/s将为30+token/s
测速结果如下:
Qwen-1.8B
Qwen-1.8B-SFT
期望行为 | Expected Behavior
1.请帮忙解释下原因;
2.请提供解决问题办法;
复现方法 | Steps To Reproduce
1.下载官方Qwen-1_8B模型 2.训练配置【finetune/finetune_lora_ds.sh】修改
--model_max_length 4096
,其他保持默认。 3.训练完成后,使用官方提供【profile.py】测试速度运行环境 | Environment
备注 | Anything else?
No response