issues
search
ztxz16
/
fastllm
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.23k
stars
325
forks
source link
支持将直接读取safetrensors得到的模型存为flm格式,并加载推理
#474
Closed
TylunasLi
closed
2 weeks ago
TylunasLi
commented
2 weeks ago
之前,fastllm支持将加载的模型通过
model.save(path)
的方式,保存为flm文件格式。但是支持直接读取.safetensors模型之后,调用
save()
保存的模型再加载会报告各种推理错误,本次对这一问题进行了修复。目前支持GLM4和Qwen1.5/Qwen2
本次修改修复了Windows下加载glm4和qwen2的safetensors时的推理异常。
测试情况
在以下模型上测试通过
Windows
GLM-4-9b-chat
Qwen2-7B-Instruct
Qwen1.5-0.5B-Chat
Centos7
GLM-4-9b-chat
Qwen2-7B-Instruct
Qwen1.5-0.5B-Chat
TylunasLi
commented
2 weeks ago
兼容性问题
现在GLM4模型的识别依赖于flm config中的“tokenizer_class“,因此之前使用脚本转换的GLM4模型需要重新转换(使用之前脚本转换的flm模型“tokenizer_class“ 为 None)
model.save(path)
的方式,保存为flm文件格式。但是支持直接读取.safetensors模型之后,调用save()
保存的模型再加载会报告各种推理错误,本次对这一问题进行了修复。目前支持GLM4和Qwen1.5/Qwen2测试情况
在以下模型上测试通过