CLUENER结果复现不一致

lonePatient / BERT-NER-Pytorch

Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

MIT License

2.06k stars 424 forks source link

CLUENER结果复现不一致 #13

Closed comeby closed 4 years ago

comeby commented 4 years ago

你好。我采用script的run脚本中的超参数在单卡GPU上测试了下CLUENER的效果，各个模型都比你给出的数据低了1.5%左右。请问你README中的实验结果是用script下的超参跑出来的么？在几张卡上跑的结果？

lonePatient commented 4 years ago

哪个模型呢？你的训练参数是？实验结果我是在单卡的跑的

comeby commented 4 years ago

直接用的script下的run_ner_softmax.sh和run_ner_mrc.sh，预训练模型用的https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip版本， BERT+Softmax和BERT+Span的效果都比你测试的低了1.5%左右。用的单卡

lonePatient commented 4 years ago

@comeby 我对sh脚本重新跑了下，你重新拉下再试试，我只测试了softmax和crf的，单卡2080

lonePatient commented 4 years ago

@comeby 我觉得可能是卡的不同的导致吗，我个人代码放在V100跟2080跑的结果都是要差距的。这个issues先关掉了

comeby commented 4 years ago

@lonePatient 我重新跑了下你新传的版本，直接运行的script/run_ner_softmax.sh 依然无法复现你README的结果。（单卡TITAN V）我测试的结果是： Accuracy (entity)	Recall (entity)	F1 score (entity)
BERT+Softmax	0.7758	0.7852	0.7805
wwmRoBERTa+Softmax	0.7995	0.8047	0.8021

我看到CLUENER Benchmark下也有人说只有采用wwmRoBERTa才能取得和你README描述相当的结果。google bert base的f1比我这个还稍低点，不知道什么原因~~