Open GromZhang opened 3 months ago
如标题, 在进行预训练的过程中,我使用的服务器发生了异常。我该如何继续进行预训练,请各位老师指点一下。
每隔一定训练steps就保存模型checkpoint,训练的参数以及优化器的参数,pytorch提供了torch.save(model.state_dict, path), model.load_state_dict()接口,可以保存这些参数
可以看一下这个项目,使用transformers库进行训练,支持断点训练,zero等优化技术。 https://github.com/wdndev/tiny-llm-zh
如标题, 在进行预训练的过程中,我使用的服务器发生了异常。我该如何继续进行预训练,请各位老师指点一下。