brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型
https://arxiv.org/pdf/1909.11942.pdf
3.94k stars 753 forks source link

使用albert_large_zh模型,在一个文本分类任务上fine-tuning,测试集精度只有49.99%, 使用同样的数据、同样的代码和脚本试了albert_tiny_zh、albert_base_zh,都能到95% #53

Open Robets2020 opened 5 years ago

Robets2020 commented 5 years ago

如题,想问一下,albert_large_zh在文本分类的任务上有什么特殊的地方吗?

lonePatient commented 5 years ago

@roberts-sh 尝试降低下学习率,最近在实验英文版的,发现学习率影响太大了 对于不同版本的albert

Robets2020 commented 5 years ago

@roberts-sh 尝试降低下学习率,最近在实验英文版的,发现学习率影响太大了 对于不同版本的albert

谢谢

652994331 commented 4 years ago

同样有这个问题, 在做下游任务的时候, 同样的参数下,finetune large 模型, 效果和base 差不多,基本没有提高,这有可能是学习率的问题造成的, 是不是在使用large 的预训练模型做下游finetune 的时候, 应该吧学习率调低一点?

brightmart commented 4 years ago

很有可能的呢

lonePatient commented 4 years ago

@652994331很难说所有任务一定要降低学习率,建议看下finetune日志,关注下loss以及指标的变化,出现问题了,优先尝试降低学习率。昨天个人实验也是降低学习率达到最好。

Cumberbatch08 commented 4 years ago

bert做下游任务的时候,学习率是1e-5这样的量级,用LSTM TextCNN训练模型的时候学习率是1e-3