DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.47k stars 305 forks source link

作者,这个项目支持断点续训嘛 #72

Open 1737686924 opened 5 months ago

1737686924 commented 5 months ago

想要训练出一个比较大的模型,必然要支持断点续训,请问支持嘛,如果没有,有计划支持嘛

wdndev commented 5 months ago

可以看一下这个项目,使用transformers库进行训练,支持断点训练,zero等优化技术。 https://github.com/wdndev/tiny-llm-zh

Tongjilibo commented 4 months ago

可以看下这个项目:https://github.com/Tongjilibo/build_MiniLLM_from_scratch