bojone / bytepiece

更纯粹、更高压缩率的Tokenizer
Apache License 2.0
442 stars 22 forks source link

不支持指定special_token吗? #6

Open zipzou opened 11 months ago

zipzou commented 11 months ago

比如将\n处理为<n>

bojone commented 11 months ago

个人认为这不是一个tokenizer该做的事情,tokenizer的作用就是对原始字节串进行切分,这种特殊需求可以自行包装一层。