z814081807 / DeepNER

天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch
914 stars 229 forks source link

原始数据的形式 #17

Closed Fan-SJ closed 3 years ago

Fan-SJ commented 3 years ago

从阿里那里拿到的原始数据格式已经变成这样的了。想知道一开始的数据格式形式。 image

z814081807 commented 3 years ago

数据

和这个是一样的,只不过原始的放到txt文件里了。

Fan-SJ commented 3 years ago

(注意:需人工将 vocab.txt 中两个 [unused] 转换成 [INV] 和 [BLANK]) 是指使用的预训练模型都要?从网盘下载的UER已经换了,别的要人工换一下?

z814081807 commented 3 years ago

(注意:需人工将 vocab.txt 中两个 [unused] 转换成 [INV] 和 [BLANK]) 是指使用的预训练模型都要?从网盘下载的UER已经换了,别的要人工换一下?

是的,因为数据处理的时候自定义tokenizer会把空格用[BLANK]表示。 (NER需要自定义tokenizer,否则标注会对不齐)