z814081807 / DeepNER

天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch
922 stars 229 forks source link

生成BIO标注数据集 #35

Closed Smile-L-up closed 2 years ago

Smile-L-up commented 3 years ago

请教您一下,怎样生成BIO数据集。您的代码是转化后直接输入到Bert的。您是采取截断方式,也就是大于最大长度就直接截断了吗?不知您是否可以开源一个生成类似BIO标注数据的代码。

z814081807 commented 3 years ago

请教您一下,怎样生成BIO数据集。您的代码是转化后直接输入到Bert的。您是采取截断方式,也就是大于最大长度就直接截断了吗?不知您是否可以开源一个生成类似BIO标注数据的代码。

  1. 这份代码生成的是BIOES数据,省略了生成BIOES标注数据到某个文件这一步,直接读入bert,如若需要,在生成数据后,将数据写入一个文件即可,可以debug看一下。
  2. 这个不是截断,NER截断会损失标注信息。注意看readme文件,是把大于512的文本分成若干个小于512的段落分别处理的,再设置最大长度512,就不会截断了。