Open heavenkiller2018 opened 1 year ago
我用的是P40的24G的卡, 运行一个大概Q+A共计1200token的prompt就需要5分钟才能回复, 算下来是4token/s的推理速度,这是不是也太低了点。显存占用是13G。
有没有什么方法能提高下推理速度吗?譬如有没有一些参数可以设置
no
- OS: - Python: - Transformers: - PyTorch: - CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
No response
目前好的常用就是 量化4bit 用c++推理。可以看看 https://github.com/sophgo/ChatGLM2-TPU https://github.com/li-plus/chatglm.cpp
Is there an existing issue for this?
Current Behavior
我用的是P40的24G的卡, 运行一个大概Q+A共计1200token的prompt就需要5分钟才能回复, 算下来是4token/s的推理速度,这是不是也太低了点。显存占用是13G。
Expected Behavior
有没有什么方法能提高下推理速度吗?譬如有没有一些参数可以设置
Steps To Reproduce
no
Environment
Anything else?
No response