01-ai / Yi-1.5

Yi-1.5 is an upgraded version of Yi, delivering stronger performance in coding, math, reasoning, and instruction-following capability.
Apache License 2.0
497 stars 28 forks source link

Fast tokenizer #32

Open paulcx opened 3 months ago

paulcx commented 3 months ago

目前的tokenizer都与之前的不一样了(vocab里缺少了id 3-13, 新增了许多added_tokens),是有什么特别理由吗?

例如: https://huggingface.co/01-ai/Yi-1.5-34B-Chat/blob/main/tokenizer.json https://huggingface.co/01-ai/Yi-1.5-34B-32K/blob/main/tokenizer.json

是否可以在vocab补上缺失的那几个tokens?

nuoma commented 3 months ago

你好,因为我们发现fast tokenizer会有一些问题,比如32K base模型无法输出空格,但slow tokenizer不会出现,所以对tokenier.json进行了更新。

paulcx commented 3 months ago

你好,因为我们发现fast tokenizer会有一些问题,比如32K base模型无法输出空格,但slow tokenizer不会出现,所以对tokenier.json进行了更新。

能给个示例吗,我测试下来fast和slow都可以正常输出空格(token_id)。