关于分词器处理后的预训练语料是通过哪个代码生成的

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.52k stars 309 forks source link

Open livevivaer opened 1 month ago

livevivaer commented 1 month ago

为了给大家节省数据预处理的时间，本项目开源了经过ChatGLM2-6B的分词器处理后的预训练语料，共计634亿Tokens的数据量，链接如下：Baby-llama2-chinese Corpus 提取码：6unr。将下载好的数据放到./data目录下即可。

上面提到的分词器处理器后的预训练语料，这部分是如何生成的。