shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
2.94k stars 451 forks source link

关于提前结束训练 #368

Closed tszslovewanpu closed 2 months ago

tszslovewanpu commented 2 months ago

Describe the Question

Please provide a clear and concise description of what the question is.

SFT训练过程中观察loss曲线,发现最佳的checkpoint已经被覆盖保存了,且eval loss已经开始上升,请问这时全局最低eval loss的那个checkpoint还被保存着吗?我该如何停止继续训练,并且让程序保存最终的模型为eval loss历史中最低的那个? 是不是已经没办法了,求教,谢谢大佬!

shibing624 commented 2 months ago

选择对应的checkpoint就是

tszslovewanpu commented 2 months ago

您好,我还想请教一下: i、等待整个SFT训练结束最终保存的模型是所有checkpoint中eval loss最低的那个吗? ii、最佳step2100 的checkpoint已经被后面的step覆盖了,我还能期待i步骤里最终的结果能够保留最佳eval loss的模型吗?

shibing624 commented 2 months ago

1)不是; 2)没了,可以把 --save_total_limit 500,甚至更大。

tszslovewanpu commented 2 months ago

哭了,谢谢你!