支持将直接读取safetrensors得到的模型存为flm格式，并加载推理 - Githubissues

ztxz16 / fastllm

纯c++的全平台llm加速库，支持python调用，chatglm-6B级模型单卡可达10000+token / s，支持glm, llama, moss基座，手机端流畅运行

Apache License 2.0

3.23k stars 325 forks source link

支持将直接读取safetrensors得到的模型存为flm格式，并加载推理 #474

Closed TylunasLi closed 2 weeks ago

TylunasLi commented 2 weeks ago

之前，fastllm支持将加载的模型通过model.save(path)的方式，保存为flm文件格式。但是支持直接读取.safetensors模型之后，调用save()保存的模型再加载会报告各种推理错误，本次对这一问题进行了修复。目前支持GLM4和Qwen1.5/Qwen2
本次修改修复了Windows下加载glm4和qwen2的safetensors时的推理异常。

测试情况

在以下模型上测试通过

Windows
- GLM-4-9b-chat
- Qwen2-7B-Instruct
- Qwen1.5-0.5B-Chat
Centos7
- GLM-4-9b-chat
- Qwen2-7B-Instruct
- Qwen1.5-0.5B-Chat

TylunasLi commented 2 weeks ago

兼容性问题

现在GLM4模型的识别依赖于flm config中的“tokenizer_class“，因此之前使用脚本转换的GLM4模型需要重新转换（使用之前脚本转换的flm模型“tokenizer_class“ 为 None）