pytools 增加tokenizer接口与stream_response_raw - Githubissues

ztxz16 / fastllm

纯c++的全平台llm加速库，支持python调用，chatglm-6B级模型单卡可达10000+token / s，支持glm, llama, moss基座，手机端流畅运行

Apache License 2.0

3.28k stars 333 forks source link

pytools 增加tokenizer接口与stream_response_raw #328

Closed lockmatrix closed 11 months ago

lockmatrix commented 12 months ago

增加stream_response_raw：

基于token输入输出（而不是string输入输出）的接口。为了能够更好的控制输入token序列，例如支持像baichuan那样system是先encode到token再拼接的，或其他想要干预token的功能。
输出改成使用fetch_response_llm_model。为了更好的支持长尾char被编码为多个token的情况。并绕过了 #326 中提到的内存泄露问题。

顺带增加了tokenizer的接口：

tokenizer_encode_string：将一个输入字符串进行encode
tokenizer_decode_token：将单个token 进行decode，没做token序列decode是因为暂时没有直接需要的场景。

tokenizer已经存储在模型中，之前没有暴露给上层，不方便做某些基于token的计算。现在同时暴露出来，并方便应用方因为其他原因调用。

其他：看到 pybinding.cpp中暴露了 Tokenizer 类，但不知道怎么从一个model_id获取它的对象。