使用多GPU部署之后，和原始模型推理速度持平了，无加速效果了？

ztxz16 / fastllm

纯c++的全平台llm加速库，支持python调用，chatglm-6B级模型单卡可达10000+token / s，支持glm, llama, moss基座，手机端流畅运行

Apache License 2.0

3.28k stars 332 forks source link

Open ray-008 opened 1 year ago

ray-008 commented 1 year ago

我分别对ChatGLM2-6B原始模型、chatglm2-6b-int4.flm模型单卡部署、chatglm2-6b-int4.flm模型多卡部署推理速度做了对比：

ChatGLM2-6B 原始模型推理速度为 100 token/s 左右 chatglm2-6b-int4.flm模型单卡部署推理速度为 220 token/s 左右 chatglm2-6b-int4.flm模型多卡部署推理速度为 100 token/s 左右

多卡部署的时候就无法达到单卡的速度是吧？

ztxz16 commented 1 year ago

目前只写了这个功能，还没优化好（另外这是什么卡.. 怎么原始模型都可以跑到100tokens / s）

ray-008 commented 1 year ago

哦，我用的是A100,40G

tlhaha commented 10 months ago

哦，我用的是A100,40G

老哥，能给个chatglm2-6b-int4.flm模型部署推理的代码吗，我这边试了只能用chat()接口，怎么批量推理呢