Vary-Tiny仍无法复现

lucasjinreal commented 2 months ago

尝试用 * 10的方法，在arxiv的长文本文档中仍然无法收敛。

之前有一个人说可以收敛到0.6，我猜测他使用的是短文本，例如我使用 owl2中的text_recognition ocr的结果去训，loss可以收敛到0.5 但这仅仅只是因为文本短而已，实际推理的结果仍然是一团糟。

{'loss': 0.5803, 'grad_norm': 2.57582426071167, 'learning_rate': 1.0002910155496131e-05, 'epoch': 0.71}

目前仍然无法复现vary tiny的结果。

PS：说收敛到0.6的人如果可以提供可推理的Vary tiny权重才算是复现，否则说服力不够。

还请继续看一下问题，否则这各种伪科学很让人抓狂，例如*10就能从不work到work，有种回到了封建时代的感觉。

Ucas-HaoranWei commented 2 months ago

好的，我们大概5月初会发新模型，顺带解这个bug， *10从不work到work，这个应该是huggingface的trainer训练学习率的问题

Ucas-HaoranWei commented 2 months ago

我有两个问题

Ucas-HaoranWei commented 2 months ago

This problem will be addressed here

Ucas-HaoranWei / Vary