issues
search
ztxz16
/
fastllm
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.33k
stars
341
forks
source link
直接读取Llama3,Qwen2的HF模型,apiserver webui benchmark使用ChatTemplate
#469
Closed
TylunasLi
closed
5 months ago
TylunasLi
commented
5 months ago
修复直接读取Llama3 HF模型的能力,支持直接读取Qwen2、Qwen1.5的HF模型
配合修改,apiserver webui benchmark使用ChatTemplate
测试情况
在以下模型上测试通过
Windows
Meta-Llama-3-8B-Instruct
Centos7
Meta-Llama-3-8B-Instruct
Qwen2-1.5B-Instruct(embedding和lm_head权重共享)
Qwen2-7B-Instruct
Qwen1.5-1.8B-Chat (需要更新最新的tokenizer_config.json)
Qwen1.5-7B-Chat (需要更新最新的tokenizer_config.json)
测试情况
在以下模型上测试通过