ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 332 forks source link

修复输出数据超长,且使用stream_response_raw的时候报错。 #411

Closed aofengdaxia closed 7 months ago

aofengdaxia commented 7 months ago

410 把410里面的建议进行了修改合并。