ztxz16 / fastllm

纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行
Apache License 2.0
3.28k stars 333 forks source link

pytools 增加tokenizer接口 与stream_response_raw #328

Closed lockmatrix closed 11 months ago

lockmatrix commented 12 months ago

增加stream_response_raw:

顺带增加了tokenizer的接口:

tokenizer已经存储在模型中,之前没有暴露给上层,不方便做某些基于token的计算。 现在同时暴露出来,并方便应用方因为其他原因调用。

其他: 看到 pybinding.cpp中暴露了 Tokenizer 类,但不知道怎么从一个model_id获取它的对象。