ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.23k stars 325 forks source link

请问什么时候支持GLM-4 ? #462

Closed Stupid-Ai closed 4 weeks ago

ztxz16 commented 1 month ago

已经支持了,目前是直接读hf模型的(./main -p "hf文件夹目录"),文档之后会更新一下

Stupid-Ai commented 1 month ago

image 感谢回复,这是cpp的执行方法吗?我只会python,我更新了最新的项目库。但是不管是根据以上代码还是chatglm_export.py都会报这个错误。

ztxz16 commented 1 month ago

image 感谢回复,这是cpp的执行方法吗?我只会python,我更新了最新的项目库。但是不管是根据以上代码还是chatglm_export.py都会报这个错误。

现在是 model = llm.model("/home/jupyter-szl/glm-4-9b-chat", dtype = "fp16") 这样执行,上面那个hf模型不用创建了

Stupid-Ai commented 1 month ago

可以了,感谢大佬