Closed 459737087 closed 8 months ago
trainer有load_model
方法加载保存好的模型权重,load_checkpoint
方法加载保存点。在训练开始前调用load_model
或者load_checkpoint
可以继续之前的训练。
你好,load_checkpoint没办法同时分布到多张卡上,这里的代码是不是有问题啊? @KaiLv69
具体报错信息是什么?load_checkpoint时需要保持前后两次训练并行设置一样
OOM ,CudaOutOfMemory @KaiLv69 ,And I found the checkpoint only ran in a single graphics card.
还有一个问题,就是load_checkpoint之后是从头训练还是继续训练,比如说加载一个跑了10个epoch的模型,结果显示是从0开始跑,10个epoch之后保存的名字还是10,这是不是说明他这个不属于继续训练,它属于从头训练。 @KaiLv69
新版本已经解决这个问题了
我已经保存模型了,怎么让它加载之前的模型继续跑。