Closed tszslovewanpu closed 2 months ago
选择对应的checkpoint就是
您好,我还想请教一下: i、等待整个SFT训练结束最终保存的模型是所有checkpoint中eval loss最低的那个吗? ii、最佳step2100 的checkpoint已经被后面的step覆盖了,我还能期待i步骤里最终的结果能够保留最佳eval loss的模型吗?
1)不是; 2)没了,可以把 --save_total_limit 500,甚至更大。
哭了,谢谢你!
Describe the Question
Please provide a clear and concise description of what the question is.
SFT训练过程中观察loss曲线,发现最佳的checkpoint已经被覆盖保存了,且eval loss已经开始上升,请问这时全局最低eval loss的那个checkpoint还被保存着吗?我该如何停止继续训练,并且让程序保存最终的模型为eval loss历史中最低的那个? 是不是已经没办法了,求教,谢谢大佬!