Ucas-HaoranWei / Vary

[ECCV2024] Official code implementation of Vary: Scaling Up the Vision Vocabulary of Large Vision Language Models.
1.65k stars 150 forks source link

Vary-Tiny仍无法复现 #104

Closed lucasjinreal closed 2 months ago

lucasjinreal commented 2 months ago

尝试用 * 10的方法,在arxiv的长文本文档中仍然无法收敛。

之前有一个人说可以收敛到0.6,我猜测他使用的是短文本,例如我使用 owl2中的text_recognition ocr的结果去训,loss可以收敛到0.5 但这仅仅只是因为文本短而已,实际推理的结果仍然是一团糟。

{'loss': 0.5803, 'grad_norm': 2.57582426071167, 'learning_rate': 1.0002910155496131e-05, 'epoch': 0.71}                                                                                                                              

目前仍然无法复现vary tiny的结果。

PS:说收敛到0.6的人如果可以提供可推理的Vary tiny权重才算是复现,否则说服力不够。

还请继续看一下问题,否则这各种伪科学很让人抓狂,例如*10就能从不work到work,有种回到了封建时代的感觉。

Ucas-HaoranWei commented 2 months ago

好的,我们大概5月初会发新模型,顺带解这个bug, *10从不work到work,这个应该是huggingface的trainer训练学习率的问题

Ucas-HaoranWei commented 2 months ago

我有两个问题

  1. 短文本0.5 loss 推理短文本可以吗
  2. 如果1推理正确,短文本loss到0.5后切arxiv接着训练试试
Ucas-HaoranWei commented 2 months ago

This problem will be addressed here