Llama支持分组查询注意力，支持书生2模型

ztxz16 / fastllm

纯c++的全平台llm加速库，支持python调用，chatglm-6B级模型单卡可达10000+token / s，支持glm, llama, moss基座，手机端流畅运行

Apache License 2.0

3.23k stars 325 forks source link

Closed TylunasLi closed 3 months ago

TylunasLi commented 3 months ago

完成 #416 ，llama类模型支持Grouped Query Attention；
修复 #425 动态NTK外推计算实现；
支持 Internlm2（书生2）模型，因为权重命名改变以及KQV切割不一致，增加了一个类。
对齐 Internlm2 在使用python Tokenizer和SentencePiece时的转换结果；对齐 Qwen1.5 在使用TokenizerFast(Huggingface Tokenizers)和SentencePiece的空格转换逻辑。

在以下模型测试过：