yym6472 / ConSERT

Code for our ACL 2021 paper - ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer
539 stars 81 forks source link

问下loss下降的细节?从多少下降到多少?我这里从7.9下降到7.8,,感觉有问题,多谢!多谢!多谢! #14

Closed guotong1988 closed 3 years ago

guotong1988 commented 3 years ago

多谢!多谢!多谢! @yym6472

yym6472 commented 3 years ago

你的实验设置是怎样呢?具体loss情况会和temperature等超参相关,具体的数值我一时记不起来了。但在训练初期loss会有一个很明显的下降过程,随后loss会长时间在小范围内波动,波动的数值区间根据对比损失的temperature会有明显的差异。如果你的是从7.9下降到7.8的话应该是有问题。

guotong1988 commented 3 years ago

我用TensorFlow试着重现的,我说的epoch2到epoch7大概loss是7.9下降到7.8,epoch1我看看

guotong1988 commented 3 years ago

step1 -- 10.7718 step101 -- 9.595694 step201 -- 8.528034 step301 -- 8.234947 step401 -- 8.255564 step501 --8.271562 step601 -- 8.234604 step701 -- 8.203447 step801 -- 8.184816 step901 -- 8.096629 step1001 -- 8.079727

yym6472 commented 3 years ago

我刚刚看了下中文STSb数据集下的实验,对比损失下降的曲线:

image

训练命令为:

python3 main.py --no_pair --seed 1 --use_apex_amp --apex_amp_opt_level O1 --batch_size 32 --max_seq_length 40 --evaluation_steps 20 --add_cl --cl_loss_only --cl_rate 0.15 --temperature 0.1 --learning_rate 0.0000005 --chinese_dataset stsb --num_epochs 100 --da_final_1 feature_cutoff --da_final_2 shuffle --cutoff_rate_final_1 0.2 --model_name_or_path ./chinese-roberta-wwm-ext-large --model_save_path ./output/unsup-consert-large-stsb --force_del --patience 10

大约在1400step趋于稳定,最终的对比损失值在0.1~0.4的区间范围内波动,temperature设置为0.1。