Closed 3wweiweiwu closed 2 weeks ago
你好! 我试着用A10-24Q显卡来跑GLM4-9B-q8精度的模型,发现main的显存用量是9469mb,而open_api.py跑,显存是14551mb,请问是不是我哪里参数没有设置好?
openai_api.py的命令行 MODEL=./chatglm-ggml-f16.bin uvicorn chatglm_cpp.openai_api:app
命令行运行 ./build/bin/main -m ./chatglm-ggml-f16.bin
在 #317 修复了,可以更新下代码和 python 包
你好! 我试着用A10-24Q显卡来跑GLM4-9B-q8精度的模型,发现main的显存用量是9469mb,而open_api.py跑,显存是14551mb,请问是不是我哪里参数没有设置好?
openai_api.py的命令行 MODEL=./chatglm-ggml-f16.bin uvicorn chatglm_cpp.openai_api:app
命令行运行 ./build/bin/main -m ./chatglm-ggml-f16.bin