Closed zpp13 closed 2 years ago
对比学习对batch size比较敏感,可以适当调小lambda和gamma
多谢回复,我试试。但是我用的就是您推荐的参数,请问您实际做实验的参数是怎样的呢?
我们实验的参数就是当前推荐的参数,但是我们发现Transformers版本会有影响。我们发现lambda=0.05会稳定一些,但是结果稍低,主表里的结果是在Transformers==4.2.1, lambda=0.05下得到的。推荐的0.1可以在不固定种子时跑到更好的结果,但是因为不可复现所以没有汇报。
我们没有遇到这种情况,这行代码在我们这里可以跑到主表中汇报的结果。我们的GPU是3090,下面是我们的第一个epoch。
如题,docker内安装依赖环境,WOS数据集 python train.py --name test --batch 12 --data WebOfScience --lamb 0.1 --thre 0.02 随着训练过程,loss从1.8逐渐下降到0.8,但是macro和micro一直徘徊在0周围,请问大佬遇到过这种情况吗?