Question about tokenizer

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.42k stars 296 forks source link

Question about tokenizer #12

Closed IshootLaser closed 12 months ago

IshootLaser commented 1 year ago

请问一下，为什么可以直接用ChatGLM的tokenizer来训练Llama？我的理解是，Llama的embedding 可能和ChatGLM不一样，有可能根本没有见过类似的embedding 或者token。这里借用ChatGLM tokenizer的原理是什么呢？谢谢

CanvaChen commented 1 year ago

@IshootLaser ChatGLM的优势是中文词语多。因为这个项目是重头训练，所以用哪个都可以，后续训练用同一个就行了。如果你想用LLaMA的分词器，可以试下我的项目，基于LLaMA扩充的，汉字比ChatGLM多，词语比ChatGLM少，被我筛选过滤掉了一些。 https://github.com/CanvaChen/chinese-llama-tokenizer