关于“产生了不该有的截断”

z814081807 / DeepNER

天池中药说明书实体识别挑战冠军方案；中文命名实体识别；NER; BERT-CRF & BERT-SPAN & BERT-MRC；Pytorch

922 stars 229 forks source link

首先感谢作者的开源代码！我在利用其他NER任务进行您的模型训练的过程中，在选择训练mrc模型，当max_seq_len设置512，自己定义的query设定的最大长度为100个字符（因此修改了processor = NERProcessor(opt.max_seq_len-103)，不知是否正确），其输出大量的'产生了不该有的截断'，请问如何理解'产生了不该有的截断'呢？会对模型的训练产生如何的影响？期待您的回答！

查看src/preprocess/processor.py处代码，这个含义是指doc（text）被截断了，在NER中一般text不应该被截断，可能造成实体被截断，句子语义信息不完整，在文本分类里面是可以的。

z814081807 / DeepNER

关于“产生了不该有的截断” #13