Ucas-HaoranWei / Vary

[ECCV2024] Official code implementation of Vary: Scaling Up the Vision Vocabulary of Large Vision Language Models.
1.65k stars 150 forks source link

无法从零复现Vary Tiny #99

Closed lucasjinreal closed 2 months ago

lucasjinreal commented 3 months ago
  1. 已经加载SAM预训练权重,且在pretrain之后加载,理论上vision ecnoder只有net2 net3是从零初始化的;
  2. 40W数据,4个epoch。
{'loss': 1.7227, 'learning_rate': 1.1180604886316958e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.7671, 'learning_rate': 1.1179762896521529e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.7822, 'learning_rate': 1.1178920929301031e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.8496, 'learning_rate': 1.117807898465685e-05, 'epoch': 2.78}                                                                                                                                                             
{'loss': 2.0146, 'learning_rate': 1.1177237062590385e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 2.1172, 'learning_rate': 1.1176395163102982e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.873, 'learning_rate': 1.1175553286196024e-05, 'epoch': 2.78}                                                                                                                                                             
{'loss': 1.9414, 'learning_rate': 1.1174711431870893e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.7373, 'learning_rate': 1.1173869600128959e-05, 'epoch': 2.78}                                                                                                                                                            
{'loss': 1.8086, 'learning_rate': 1.1173027790971596e-05, 'epoch': 2.78}

loss无法降下来。

还请作者帮忙看看,寻找一下问题,否则无法复现论文没有说服力

另:全部加载vary tiny的权重继续训练,loss是可以到0.2-0.3的,工作正常。

Ucas-HaoranWei commented 3 months ago

和之前说的一样,transformers trainer多ep下loss不会加速收敛

lucasjinreal commented 3 months ago

是的,所以应该如何解决呢? 我看社区很多人都无法复现了。

Ucas-HaoranWei commented 3 months ago

两种解决方案

  1. 放弃transformers的trainer自己写一个,这个同组同学训练video和生成多ep resume也遇到这个bug
  2. 耐心等我重写一个开源
lucasjinreal commented 3 months ago

期待一个可以工作的版本开源

Ucas-HaoranWei commented 2 months ago

transformers库貌似可以通过数据*n遍,来替代多个ep收敛 https://github.com/Ucas-HaoranWei/Vary-toy/issues/30#issuecomment-2050877639