这个需要什么配置合适？用一张A100 显卡跑的7B模型，80G显存用了10G，回答case中的怎么去北京要60秒才返回结果

LlamaFamily / Llama-Chinese

Llama中文社区，Llama3在线体验和微调模型已开放，实时汇总最新Llama3学习资料，已将所有代码更新适配Llama3，构建最好的中文Llama大模型，完全开源可商用

https://llama.family

14.01k stars 1.26k forks source link

Open MetaRunning opened 7 months ago

MetaRunning commented 7 months ago

Rayrtfr commented 7 months ago

RT

MetaRunning commented 6 months ago

RT

使用加速方法，简单的可以试试vllm：https://github.com/LlamaFamily/Llama-Chinese/tree/main/inference-speed/GPU/vllm_example

好的，多谢。我试下看下效果。