LlamaFamily / Llama-Chinese

Llama中文社区,Llama3在线体验和微调模型已开放,实时汇总最新Llama3学习资料,已将所有代码更新适配Llama3,构建最好的中文Llama大模型,完全开源可商用
https://llama.family
14.01k stars 1.26k forks source link

这个需要什么配置合适?用一张A100 显卡跑的7B模型,80G显存用了10G,回答case中的怎么去北京 要60秒才返回结果 #310

Open MetaRunning opened 7 months ago

MetaRunning commented 7 months ago

RT

Rayrtfr commented 7 months ago

RT

使用加速方法,简单的可以试试vllm:https://github.com/LlamaFamily/Llama-Chinese/tree/main/inference-speed/GPU/vllm_example

MetaRunning commented 6 months ago

RT

使用加速方法,简单的可以试试vllm:https://github.com/LlamaFamily/Llama-Chinese/tree/main/inference-speed/GPU/vllm_example

好的,多谢。我试下看下效果。