为了丰富和扩充本项目，这里开源了使用deepspeed进行训练的代码和权重（1.75B）

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.34k stars 288 forks source link

为了丰富和扩充本项目，这里开源了使用deepspeed进行训练的代码和权重（1.75B） #60

Closed AI-Study-Han closed 3 months ago

AI-Study-Han commented 4 months ago

由于博主没有使用deepspeed，为了丰富这个项目，这里使用deepspeed从0训练了1.75B的模型，并进行了指令微调。并且开源了预训练代码、指令微调代码和模型权重。在8*A100 40G的机器上，700G的语料训练了20天左右。代码和权重在：https://github.com/AI-Study-Han/Mini-Llama2-Chinese