同一模型，open_api.py的显存用量显著大于cli

li-plus / chatglm.cpp

C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4

MIT License

2.81k stars 327 forks source link

Closed 3wweiweiwu closed 2 weeks ago

3wweiweiwu commented 2 weeks ago

你好！我试着用A10-24Q显卡来跑GLM4-9B-q8精度的模型，发现main的显存用量是9469mb，而open_api.py跑，显存是14551mb，请问是不是我哪里参数没有设置好？

openai_api.py的命令行 MODEL=./chatglm-ggml-f16.bin uvicorn chatglm_cpp.openai_api:app

命令行运行 ./build/bin/main -m ./chatglm-ggml-f16.bin

li-plus commented 2 weeks ago

在 #317 修复了，可以更新下代码和 python 包