使用项目中的api.py启动模型，没做4bit量化，使用v100的卡，推理特别慢，经常卡住

LinkSoul-AI / Chinese-Llama-2-7b

开源社区第一个能下载、能运行的中文 LLaMA2 模型！

Apache License 2.0

2.23k stars 202 forks source link

Open jcxian opened 1 year ago

jcxian commented 1 year ago

gpu占用

请求参数 {"prompt":"请判断以下表述是否全部正确，回答“对”或“错”：多喝奶茶代替饮水，“是健康的生活方式”","history":[],"max_length":2000}

单个请求，就可以将gpu显存使用率打满，一个简单问题，就需要20s的时间，这是模型的问题吗？

NaMoCv commented 1 year ago

+1慢得一批，一开始我是用a卡跑的还以为是a卡问题，转n卡跑一样慢得要命。

zozoteacher commented 1 year ago

+1 请问这个问题有解决吗