LinkSoul-AI / Chinese-Llama-2-7b

开源社区第一个能下载、能运行的中文 LLaMA2 模型!
Apache License 2.0
2.23k stars 202 forks source link

使用项目中的api.py启动模型,没做4bit量化,使用v100的卡,推理特别慢,经常卡住 #51

Open jcxian opened 1 year ago

jcxian commented 1 year ago

gpu占用 image

请求参数 {"prompt":"请判断以下表述是否全部正确,回答“对”或“错”:多喝奶茶代替饮水,“是健康的生活方式”","history":[],"max_length":2000}

单个请求,就可以将gpu显存使用率打满,一个简单问题,就需要20s的时间,这是模型的问题吗?

NaMoCv commented 1 year ago

+1慢得一批,一开始我是用a卡跑的还以为是a卡问题,转n卡跑一样慢得要命。

zozoteacher commented 1 year ago

+1 请问这个问题有解决吗