无法从零复现Vary Tiny

lucasjinreal commented 3 months ago

已经加载SAM预训练权重，且在pretrain之后加载，理论上vision ecnoder只有net2 net3是从零初始化的；
40W数据，4个epoch。

{'loss': 1.7227, 'learning_rate': 1.1180604886316958e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.7671, 'learning_rate': 1.1179762896521529e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.7822, 'learning_rate': 1.1178920929301031e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.8496, 'learning_rate': 1.117807898465685e-05, 'epoch': 2.78}                                                                                                                                                             
{'loss': 2.0146, 'learning_rate': 1.1177237062590385e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 2.1172, 'learning_rate': 1.1176395163102982e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.873, 'learning_rate': 1.1175553286196024e-05, 'epoch': 2.78}                                                                                                                                                             
{'loss': 1.9414, 'learning_rate': 1.1174711431870893e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.7373, 'learning_rate': 1.1173869600128959e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.8086, 'learning_rate': 1.1173027790971596e-05, 'epoch': 2.78}

loss无法降下来。

还请作者帮忙看看，寻找一下问题，否则无法复现论文没有说服力

另：全部加载vary tiny的权重继续训练，loss是可以到0.2-0.3的，工作正常。

Ucas-HaoranWei commented 3 months ago

和之前说的一样，transformers trainer多ep下loss不会加速收敛

lucasjinreal commented 3 months ago

是的，所以应该如何解决呢？我看社区很多人都无法复现了。

Ucas-HaoranWei commented 3 months ago

两种解决方案

放弃transformers的trainer自己写一个，这个同组同学训练video和生成多ep resume也遇到这个bug
耐心等我重写一个开源

lucasjinreal commented 3 months ago

期待一个可以工作的版本开源

Ucas-HaoranWei commented 2 months ago

transformers库貌似可以通过数据*n遍，来替代多个ep收敛 https://github.com/Ucas-HaoranWei/Vary-toy/issues/30#issuecomment-2050877639

Ucas-HaoranWei / Vary

无法从零复现Vary Tiny #99