关于运行一段时间，机器断电，如何继续训练

DLLXW / baby-llama2-chinese

用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库；24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.

MIT License

2.34k stars 288 forks source link

Open GromZhang opened 3 months ago

GromZhang commented 3 months ago

如标题，在进行预训练的过程中，我使用的服务器发生了异常。我该如何继续进行预训练，请各位老师指点一下。

PshySimon commented 3 months ago

每隔一定训练steps就保存模型checkpoint，训练的参数以及优化器的参数，pytorch提供了torch.save(model.state_dict, path), model.load_state_dict()接口，可以保存这些参数

wdndev commented 2 months ago

可以看一下这个项目，使用transformers库进行训练，支持断点训练，zero等优化技术。 https://github.com/wdndev/tiny-llm-zh