Open paulcx opened 3 months ago
你好,因为我们发现fast tokenizer会有一些问题,比如32K base模型无法输出空格,但slow tokenizer不会出现,所以对tokenier.json进行了更新。
你好,因为我们发现fast tokenizer会有一些问题,比如32K base模型无法输出空格,但slow tokenizer不会出现,所以对tokenier.json进行了更新。
能给个示例吗,我测试下来fast和slow都可以正常输出空格(token_id)。
目前的tokenizer都与之前的不一样了(vocab里缺少了id 3-13, 新增了许多added_tokens),是有什么特别理由吗?
例如: https://huggingface.co/01-ai/Yi-1.5-34B-Chat/blob/main/tokenizer.json https://huggingface.co/01-ai/Yi-1.5-34B-32K/blob/main/tokenizer.json
是否可以在vocab补上缺失的那几个tokens?