加载albert_base和albert_large准确率正常，80%多，但加载albert_xlarge准确率约等于零，请问大神们这是怎么回事，同一数据集

brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型

https://arxiv.org/pdf/1909.11942.pdf

3.94k stars 753 forks source link

Closed ann22 closed 4 years ago

brightmart commented 4 years ago

albert_xlarge模型比较大，稳定性可能不太好。这可能是你的数据集太小，或者需要多次训练才能得到好的效果，如使用不同的学习率等。

afterQingming commented 4 years ago

有可能是xlarge本身的BUG。官方论文中head num 应该是hidden size/64，即在xlarge中head num应为32，而我看很多地方都是16,（google的据说模型参数文件中是32，但是配置上写的16）