CLUEbenchmark / CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
http://www.CLUEbenchmarks.com
4k stars 540 forks source link

pytorch版本mrc程序训练时loss出现nan #73

Closed liangxiao closed 4 years ago

liangxiao commented 4 years ago

使用的cmrc2018公开的训练数据,运行baselines/models_pytorch/mrc_pytorch/run_mrc_cmrc2018.sh,训练几步后出现loss变为nan。检查后似乎没发现数据错误,还可能是什么原因呢?

ewrfcas commented 4 years ago

使用的是什么模型,另外吧float16设置为false

liangxiao commented 4 years ago

模型试了RoBERTa-wwm-ext,BERT-wwm-ext和RoBERTa-wwm-large,float16没有设置,默认为false,都是一样的结果。

ewrfcas commented 4 years ago

我这里roberta-wwm-ext默认参数正常,pytorch版本1.2.0

liangxiao commented 4 years ago

我的pytorch版本是1.1.0,那我升级一下试试,谢谢!

liangxiao commented 4 years ago

原因是pytorch版本过低,更新到1.2.0后,问题解决!