DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.42k stars 296 forks source link

Question about tokenizer #12

Closed IshootLaser closed 12 months ago

IshootLaser commented 1 year ago

请问一下,为什么可以直接用ChatGLM的tokenizer来训练Llama?我的理解是,Llama的embedding 可能和ChatGLM不一样,有可能根本没有见过类似的embedding 或者token。这里借用ChatGLM tokenizer的原理是什么呢? 谢谢

CanvaChen commented 1 year ago

@IshootLaser ChatGLM的优势是中文词语多。因为这个项目是重头训练,所以用哪个都可以,后续训练用同一个就行了。如果你想用LLaMA的分词器,可以试下我的项目,基于LLaMA扩充的,汉字比ChatGLM多,词语比ChatGLM少,被我筛选过滤掉了一些。 https://github.com/CanvaChen/chinese-llama-tokenizer