Fast tokenizer - Githubissues

01-ai / Yi-1.5

Yi-1.5 is an upgraded version of Yi, delivering stronger performance in coding, math, reasoning, and instruction-following capability.

Apache License 2.0

497 stars 28 forks source link

Open paulcx opened 3 months ago

paulcx commented 3 months ago

目前的tokenizer都与之前的不一样了（vocab里缺少了id 3-13, 新增了许多added_tokens），是有什么特别理由吗？

是否可以在vocab补上缺失的那几个tokens?

nuoma commented 3 months ago

你好，因为我们发现fast tokenizer会有一些问题，比如32K base模型无法输出空格，但slow tokenizer不会出现，所以对tokenier.json进行了更新。

paulcx commented 3 months ago

你好，因为我们发现fast tokenizer会有一些问题，比如32K base模型无法输出空格，但slow tokenizer不会出现，所以对tokenier.json进行了更新。

能给个示例吗，我测试下来fast和slow都可以正常输出空格(token_id)。