brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型
https://arxiv.org/pdf/1909.11942.pdf
3.94k stars 753 forks source link

加载albert_base和albert_large准确率正常,80%多,但加载albert_xlarge准确率约等于零,请问大神们这是怎么回事,同一数据集 #138

Closed ann22 closed 4 years ago

brightmart commented 4 years ago

albert_xlarge模型比较大, 稳定性可能不太好。这可能是你的数据集太小,或者需要多次训练才能得到好的效果,如使用不同的学习率等。

afterQingming commented 4 years ago

有可能是xlarge本身的BUG。官方论文中head num 应该是hidden size/64,即在xlarge中head num应为32,而我看很多地方都是16,(google的据说模型参数文件中是32,但是配置上写的16)