z814081807 / DeepNER

天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch
922 stars 229 forks source link

关于“产生了不该有的截断” #13

Closed S1s-Z closed 3 years ago

S1s-Z commented 3 years ago

首先感谢作者的开源代码! 我在利用其他NER任务进行您的模型训练的过程中,在选择训练mrc模型,当max_seq_len设置512,自己定义的query设定的最大长度为100个字符(因此修改了processor = NERProcessor(opt.max_seq_len-103),不知是否正确),其输出大量的'产生了不该有的截断',请问如何理解'产生了不该有的截断'呢?会对模型的训练产生如何的影响?期待您的回答!

z814081807 commented 3 years ago

首先感谢作者的开源代码! 我在利用其他NER任务进行您的模型训练的过程中,在选择训练mrc模型,当max_seq_len设置512,自己定义的query设定的最大长度为100个字符(因此修改了processor = NERProcessor(opt.max_seq_len-103),不知是否正确),其输出大量的'产生了不该有的截断',请问如何理解'产生了不该有的截断'呢?会对模型的训练产生如何的影响?期待您的回答!

查看src/preprocess/processor.py处代码, 这个含义是指doc(text)被截断了,在NER中一般text不应该被截断,可能造成实体被截断,句子语义信息不完整,在文本分类里面是可以的。