li-plus / chatglm.cpp

C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4
MIT License
2.81k stars 327 forks source link

同一模型,open_api.py的显存用量显著大于cli #320

Closed 3wweiweiwu closed 2 weeks ago

3wweiweiwu commented 2 weeks ago

你好! 我试着用A10-24Q显卡来跑GLM4-9B-q8精度的模型,发现main的显存用量是9469mb,而open_api.py跑,显存是14551mb,请问是不是我哪里参数没有设置好?

openai_api.py的命令行 MODEL=./chatglm-ggml-f16.bin uvicorn chatglm_cpp.openai_api:app

命令行运行 ./build/bin/main -m ./chatglm-ggml-f16.bin

li-plus commented 2 weeks ago

在 #317 修复了,可以更新下代码和 python 包