ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 332 forks source link

使用多GPU部署之后,和原始模型推理速度持平了,无加速效果了? #181

Open ray-008 opened 1 year ago

ray-008 commented 1 year ago

我分别对ChatGLM2-6B原始模型、chatglm2-6b-int4.flm模型单卡部署、chatglm2-6b-int4.flm模型多卡部署推理速度做了对比:

ChatGLM2-6B 原始模型推理速度为 100 token/s 左右 chatglm2-6b-int4.flm模型单卡部署推理速度为 220 token/s 左右 chatglm2-6b-int4.flm模型多卡部署推理速度为 100 token/s 左右

多卡部署的时候就无法达到单卡的速度是吧?

ztxz16 commented 1 year ago

目前只写了这个功能,还没优化好 (另外这是什么卡.. 怎么原始模型都可以跑到100tokens / s)

ray-008 commented 1 year ago

哦,我用的是A100,40G

tlhaha commented 10 months ago

哦,我用的是A100,40G

老哥,能给个chatglm2-6b-int4.flm模型部署推理的代码吗,我这边试了只能用chat()接口,怎么批量推理呢