ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 332 forks source link

支持llama类模型的外推位置编码,增加Deepseek-Coder-Instruct和Qwen1.5-Chat模型支持 #425

Closed TylunasLi closed 6 months ago

TylunasLi commented 6 months ago
  1. 实现了llama类模型的几种长序列位置编码(外推)方法,目前支持transformsers<=4.33.3的位置编码(RoPE):
    • ABF(修改base)
    • 线性缩放
    • 动态NTK
  2. 基于以上位置编码扩展,支持了以下模型:

测试情况

在以下模型上测试过: