ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 332 forks source link

支持chatglm3-6b-32k,修复model.save()方式保存的模型没对齐的问题。 #398

Closed TylunasLi closed 8 months ago

TylunasLi commented 8 months ago
  1. 兼容chatglm3-6b-32k 和 chatglm2-6b-32k的位置编码差异,尝试修复 #374 ,目前判断chatglm3/chatglm2逻辑比较简单,后续需要进一步优化;
  2. 修复 llm.from_hf() + model.save() 模式下,保存的模型中 sentencepiece tokenizer 没有包含score的问题

    380 #397。

  3. tokenizer对齐优化, a. ChatGLM3中构造prompt时 build_single_message()时,每调用一次 encode() 方法都会插入一个空格; b. 实测tokenizer下两三个空格并不合并 #380,暂时注释掉了空格合并逻辑,这块还需进一步跟sentencepiece对齐。