DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.52k stars 309 forks source link

关于分词器处理后的预训练语料是通过哪个代码生成的 #84

Open livevivaer opened 1 month ago

livevivaer commented 1 month ago

为了给大家节省数据预处理的时间,本项目开源了经过ChatGLM2-6B的分词器处理后的预训练语料,共计634亿Tokens的数据量,链接如下:Baby-llama2-chinese Corpus 提取码:6unr。将下载好的数据放到./data目录下即可。

上面提到的分词器处理器后的预训练语料,这部分是如何生成的。