Closed AI-Study-Han closed 3 months ago
由于博主没有使用deepspeed,为了丰富这个项目,这里使用deepspeed从0训练了1.75B的模型,并进行了指令微调。并且开源了预训练代码、指令微调代码和模型权重。在8*A100 40G的机器上,700G的语料训练了20天左右。代码和权重在:https://github.com/AI-Study-Han/Mini-Llama2-Chinese
由于博主没有使用deepspeed,为了丰富这个项目,这里使用deepspeed从0训练了1.75B的模型,并进行了指令微调。并且开源了预训练代码、指令微调代码和模型权重。在8*A100 40G的机器上,700G的语料训练了20天左右。代码和权重在:https://github.com/AI-Study-Han/Mini-Llama2-Chinese