问下loss下降的细节？从多少下降到多少？我这里从7.9下降到7.8，，感觉有问题，多谢！多谢！多谢！

yym6472 / ConSERT

Code for our ACL 2021 paper - ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

539 stars 81 forks source link

问下loss下降的细节？从多少下降到多少？我这里从7.9下降到7.8，，感觉有问题，多谢！多谢！多谢！ #14

Closed guotong1988 closed 3 years ago

guotong1988 commented 3 years ago

多谢！多谢！多谢！ @yym6472

yym6472 commented 3 years ago

你的实验设置是怎样呢？具体loss情况会和temperature等超参相关，具体的数值我一时记不起来了。但在训练初期loss会有一个很明显的下降过程，随后loss会长时间在小范围内波动，波动的数值区间根据对比损失的temperature会有明显的差异。如果你的是从7.9下降到7.8的话应该是有问题。

guotong1988 commented 3 years ago

我用TensorFlow试着重现的，我说的epoch2到epoch7大概loss是7.9下降到7.8，epoch1我看看

guotong1988 commented 3 years ago

step1 -- 10.7718 step101 -- 9.595694 step201 -- 8.528034 step301 -- 8.234947 step401 -- 8.255564 step501 --8.271562 step601 -- 8.234604 step701 -- 8.203447 step801 -- 8.184816 step901 -- 8.096629 step1001 -- 8.079727

yym6472 commented 3 years ago

我刚刚看了下中文STSb数据集下的实验，对比损失下降的曲线：

训练命令为：

python3 main.py --no_pair --seed 1 --use_apex_amp --apex_amp_opt_level O1 --batch_size 32 --max_seq_length 40 --evaluation_steps 20 --add_cl --cl_loss_only --cl_rate 0.15 --temperature 0.1 --learning_rate 0.0000005 --chinese_dataset stsb --num_epochs 100 --da_final_1 feature_cutoff --da_final_2 shuffle --cutoff_rate_final_1 0.2 --model_name_or_path ./chinese-roberta-wwm-ext-large --model_save_path ./output/unsup-consert-large-stsb --force_del --patience 10

大约在1400step趋于稳定，最终的对比损失值在0.1~0.4的区间范围内波动，temperature设置为0.1。