Closed ann22 closed 4 years ago
albert_xlarge模型比较大, 稳定性可能不太好。这可能是你的数据集太小,或者需要多次训练才能得到好的效果,如使用不同的学习率等。
有可能是xlarge本身的BUG。官方论文中head num 应该是hidden size/64,即在xlarge中head num应为32,而我看很多地方都是16,(google的据说模型参数文件中是32,但是配置上写的16)
albert_xlarge模型比较大, 稳定性可能不太好。这可能是你的数据集太小,或者需要多次训练才能得到好的效果,如使用不同的学习率等。