关于提前结束训练

shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。

Apache License 2.0

2.94k stars 451 forks source link

关于提前结束训练 #368

Closed tszslovewanpu closed 2 months ago

tszslovewanpu commented 2 months ago

Describe the Question

Please provide a clear and concise description of what the question is.

SFT训练过程中观察loss曲线，发现最佳的checkpoint已经被覆盖保存了，且eval loss已经开始上升，请问这时全局最低eval loss的那个checkpoint还被保存着吗？我该如何停止继续训练，并且让程序保存最终的模型为eval loss历史中最低的那个？是不是已经没办法了，求教，谢谢大佬！

shibing624 commented 2 months ago

选择对应的checkpoint就是

tszslovewanpu commented 2 months ago

您好，我还想请教一下： i、等待整个SFT训练结束最终保存的模型是所有checkpoint中eval loss最低的那个吗？ ii、最佳step2100 的checkpoint已经被后面的step覆盖了，我还能期待i步骤里最终的结果能够保留最佳eval loss的模型吗？

shibing624 commented 2 months ago

1）不是； 2）没了，可以把 --save_total_limit 500，甚至更大。

tszslovewanpu commented 2 months ago

哭了，谢谢你！