想问一下这个loss训练到什么数量级才可以拿去做预训练权重

keyu-tian / SparK

[ICLR'23 Spotlight🔥] The first successful BERT/MAE-style pretraining on any convolutional network; Pytorch impl. of "Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling"

https://arxiv.org/abs/2301.03580

MIT License

1.46k stars 84 forks source link

想问一下这个loss训练到什么数量级才可以拿去做预训练权重 #53

Closed heng3366 closed 1 year ago

heng3366 commented 1 year ago

我这边把2d操作修改成高度为1的，为了适配1d时序信号，之前试过了vit1dmae，可以预训练完成，且能够微调，效果也不错，目前的疑问是：这边的loss情况要降低到什么程度才可以呢，我修改成mse，loss发现是0,0002的时候，拿权重去做可视化预测，效果很糟糕，我观察到你代码中设置min_loss设置为1e-9，可以分享下最终loss收敛到什么一个地步可以停止训练吗，谢谢

keyu-tian commented 1 year ago

我们的最终loss基本上是0.2~0.4这个幅度，您的loss看着有点过小，可能修改代码时有一些bug