issues
search
ztxz16
/
fastllm
纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.23k
stars
325
forks
source link
修复Win32Demo CPU构建错误
#438
Closed
TylunasLi
closed
4 months ago
TylunasLi
commented
4 months ago
修复PR #428 后,Win32Demo CPU版本的编译错误。
对齐MiniCPM的tokenizer,简化代码为lLlamaModel类的子类,去掉了 Alibi Mask (本来MiniCPM也没有用Alibi Mask )。
TylunasLi
commented
4 months ago
利用AddTo合并了MiniCPM中Mul和AddTo算子,现在提速了大约0.4%。