Closed lucasjinreal closed 2 months ago
尝试用 * 10的方法,在arxiv的长文本文档中仍然无法收敛。
之前有一个人说可以收敛到0.6,我猜测他使用的是短文本,例如我使用 owl2中的text_recognition ocr的结果去训,loss可以收敛到0.5 但这仅仅只是因为文本短而已,实际推理的结果仍然是一团糟。
{'loss': 0.5803, 'grad_norm': 2.57582426071167, 'learning_rate': 1.0002910155496131e-05, 'epoch': 0.71}
目前仍然无法复现vary tiny的结果。
PS:说收敛到0.6的人如果可以提供可推理的Vary tiny权重才算是复现,否则说服力不够。
还请继续看一下问题,否则这各种伪科学很让人抓狂,例如*10就能从不work到work,有种回到了封建时代的感觉。
好的,我们大概5月初会发新模型,顺带解这个bug, *10从不work到work,这个应该是huggingface的trainer训练学习率的问题
我有两个问题
This problem will be addressed here
尝试用 * 10的方法,在arxiv的长文本文档中仍然无法收敛。
之前有一个人说可以收敛到0.6,我猜测他使用的是短文本,例如我使用 owl2中的text_recognition ocr的结果去训,loss可以收敛到0.5 但这仅仅只是因为文本短而已,实际推理的结果仍然是一团糟。
目前仍然无法复现vary tiny的结果。
PS:说收敛到0.6的人如果可以提供可推理的Vary tiny权重才算是复现,否则说服力不够。
还请继续看一下问题,否则这各种伪科学很让人抓狂,例如*10就能从不work到work,有种回到了封建时代的感觉。