使用albert_large_zh模型，在一个文本分类任务上fine-tuning，测试集精度只有49.99%, 使用同样的数据、同样的代码和脚本试了albert_tiny_zh、albert_base_zh，都能到95%

brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型

https://arxiv.org/pdf/1909.11942.pdf

3.94k stars 753 forks source link

Open Robets2020 opened 5 years ago

Robets2020 commented 5 years ago

如题，想问一下，albert_large_zh在文本分类的任务上有什么特殊的地方吗？

lonePatient commented 5 years ago

@roberts-sh 尝试降低下学习率，最近在实验英文版的，发现学习率影响太大了对于不同版本的albert

Robets2020 commented 5 years ago

@roberts-sh 尝试降低下学习率，最近在实验英文版的，发现学习率影响太大了对于不同版本的albert

谢谢

652994331 commented 4 years ago

同样有这个问题，在做下游任务的时候，同样的参数下，finetune large 模型，效果和base 差不多，基本没有提高，这有可能是学习率的问题造成的，是不是在使用large 的预训练模型做下游finetune 的时候，应该吧学习率调低一点？

brightmart commented 4 years ago

很有可能的呢

lonePatient commented 4 years ago

@652994331很难说所有任务一定要降低学习率，建议看下finetune日志，关注下loss以及指标的变化，出现问题了，优先尝试降低学习率。昨天个人实验也是降低学习率达到最好。

Cumberbatch08 commented 4 years ago

bert做下游任务的时候，学习率是1e-5这样的量级，用LSTM TextCNN训练模型的时候学习率是1e-3