issues
search
ztxz16
/
fastllm
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.23k
stars
325
forks
source link
Llama支持分组查询注意力,支持书生2模型
#442
Closed
TylunasLi
closed
3 months ago
TylunasLi
commented
3 months ago
完成 #416 ,llama类模型支持Grouped Query Attention;
修复 #425 动态NTK外推计算实现;
支持 Internlm2(书生2)模型,因为权重命名改变以及KQV切割不一致,增加了一个类。
对齐 Internlm2 在使用python Tokenizer和SentencePiece时的转换结果; 对齐 Qwen1.5 在使用TokenizerFast(Huggingface Tokenizers)和SentencePiece的空格转换逻辑。
测试情况
在以下模型测试过:
Yi-6B-Chat
Internlm2-Chat-1.8B
测试情况
在以下模型测试过: