keyu-tian / SparK

[ICLR'23 Spotlight🔥] The first successful BERT/MAE-style pretraining on any convolutional network; Pytorch impl. of "Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling"
https://arxiv.org/abs/2301.03580
MIT License
1.46k stars 84 forks source link

想问一下这个loss训练到什么数量级才可以拿去做预训练权重 #53

Closed heng3366 closed 1 year ago

heng3366 commented 1 year ago

我这边把2d操作修改成高度为1的,为了适配1d时序信号,之前试过了vit1dmae,可以预训练完成,且能够微调,效果也不错,目前的疑问是:这边的loss情况要降低到什么程度才可以呢,我修改成mse,loss发现是0,0002的时候,拿权重去做可视化预测,效果很糟糕,我观察到你代码中设置min_loss设置为1e-9,可以分享下最终loss收敛到什么一个地步可以停止训练吗,谢谢

keyu-tian commented 1 year ago

我们的最终loss基本上是0.2~0.4这个幅度,您的loss看着有点过小,可能修改代码时有一些bug