ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.23k stars 325 forks source link

Llama支持分组查询注意力,支持书生2模型 #442

Closed TylunasLi closed 3 months ago

TylunasLi commented 3 months ago
  1. 完成 #416 ,llama类模型支持Grouped Query Attention;
  2. 修复 #425 动态NTK外推计算实现;
  3. 支持 Internlm2(书生2)模型,因为权重命名改变以及KQV切割不一致,增加了一个类。
  4. 对齐 Internlm2 在使用python Tokenizer和SentencePiece时的转换结果; 对齐 Qwen1.5 在使用TokenizerFast(Huggingface Tokenizers)和SentencePiece的空格转换逻辑。

测试情况

在以下模型测试过: