ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 332 forks source link

修复输出数据超长,且使用stream_response_raw的时候报错 #412

Closed aofengdaxia closed 7 months ago

aofengdaxia commented 7 months ago

410 具体的报错请见410.

根据410里的建议把tokenizer_encode_string和tokenizer_decode_token都做了修改。避免了在动态线程的时候出现问题。