Open sunmooncode opened 2 years ago
当我把batch-size设置为16的时候能够正常运行~
训练过程中lrep会变成nan,是pytorch版本的问题嘛?
因为你增加了landmark损失,一些超参数需要重新调节
@Krasjet-Yu 这个是在我笔记本训练的 没有nan 同样的超参数!
上面那个keyerror有什么建议嘛
update: 好吧 还是变nan了
我没试过双卡训练。我后续试一下双卡解决一下bug。不过单卡的话batch16,epoch200差不多也就一天左右吧。
@Krasjet-Yu 好的 感谢 我在调一调试试~~
训练的时候双卡跑也会出现 ,单卡跑的时候就会出现上面错误!