关于baseline的运行结果

z814081807 / DeepNER

天池中药说明书实体识别挑战冠军方案；中文命名实体识别；NER; BERT-CRF & BERT-SPAN & BERT-MRC；Pytorch

922 stars 229 forks source link

Closed gaobonan closed 2 years ago

gaobonan commented 2 years ago

请教一下，请问按照现在项目中的run.sh运行的出来的结果，f1-score大约应该是多少？由于显存上限，我只修改了train_batch_size=10，但在dev上的f1只有0.113，感觉不太对。截图_20223904013945

z814081807 commented 2 years ago

请教一下，请问按照现在项目中的run.sh运行的出来的结果，f1-score大约应该是多少？由于显存上限，我只修改了train_batch_size=10，但在dev上的f1只有0.113，感觉不太对。

你好，正常应该是70多检查一下transformers等包的安装版本是否对，运行时是否有提示warning，check一下

gaobonan commented 2 years ago

非常感谢，排查下来是transformers版本的原因，具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。

shexuan commented 2 years ago

非常感谢，排查下来是transformers版本的原因，具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。

老哥可以把更新版本的transformer正常跑的代码push上去，毕竟最终还是要用更新的嘛

shexuan commented 2 years ago

非常感谢，排查下来是transformers版本的原因，具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。

我看了下，两个版本的 tokenizer.encode_plus 的 trunction_strategy 默认参数都是 “longest_first”，为什么还会出现你的这个问题？