DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
MIT License
2.34k stars 288 forks source link

关于运行一段时间,机器断电,如何继续训练 #66

Open GromZhang opened 3 months ago

GromZhang commented 3 months ago

如标题, 在进行预训练的过程中,我使用的服务器发生了异常。我该如何继续进行预训练,请各位老师指点一下。

PshySimon commented 3 months ago

每隔一定训练steps就保存模型checkpoint,训练的参数以及优化器的参数,pytorch提供了torch.save(model.state_dict, path), model.load_state_dict()接口,可以保存这些参数

wdndev commented 2 months ago

可以看一下这个项目,使用transformers库进行训练,支持断点训练,zero等优化技术。 https://github.com/wdndev/tiny-llm-zh