Open bestbzw opened 4 years ago
同样的代码,用bert,robert都可以训练,但是用albert_xxlarge时,loss却不下降。请问是要在训练的时候设置什么超参数吗?我加载模型时用的是AutoModel.from_pretrained, 加载tokenizer的时候用的BertTokenizer.from_pretrained.
同样的代码,用bert,robert都可以训练,但是用albert_xxlarge时,loss却不下降。请问是要在训练的时候设置什么超参数吗?我加载模型时用的是AutoModel.from_pretrained, 加载tokenizer的时候用的BertTokenizer.from_pretrained.