z814081807 / DeepNER

天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch
922 stars 229 forks source link

关于baseline的运行结果 #37

Closed gaobonan closed 2 years ago

gaobonan commented 2 years ago

请教一下,请问按照现在项目中的run.sh运行的出来的结果,f1-score大约应该是多少?由于显存上限,我只修改了train_batch_size=10,但在dev上的f1只有0.113,感觉不太对。 截图_20223904013945

z814081807 commented 2 years ago

请教一下,请问按照现在项目中的run.sh运行的出来的结果,f1-score大约应该是多少?由于显存上限,我只修改了train_batch_size=10,但在dev上的f1只有0.113,感觉不太对。 截图_20223904013945

你好,正常应该是70多 检查一下transformers等包的安装版本是否对,运行时是否有提示warning,check一下

gaobonan commented 2 years ago

非常感谢,排查下来是transformers版本的原因,具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。

shexuan commented 2 years ago

非常感谢,排查下来是transformers版本的原因,具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。

老哥可以把更新版本的transformer正常跑的代码push上去,毕竟最终还是要用更新的嘛

shexuan commented 2 years ago

非常感谢,排查下来是transformers版本的原因,具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。

我看了下,两个版本的 tokenizer.encode_plus 的 trunction_strategy 默认参数都是 “longest_first”,为什么还会出现你的这个问题?