作者你好，我想知道使用自己的数据集进行训练的时候，应该进行哪些修改

taishan1994 / BERT-BILSTM-CRF

使用BERT-BILSTM-CRF进行中文命名实体识别。

312 stars 38 forks source link

作者你好，我想知道使用自己的数据集进行训练的时候，应该进行哪些修改 #26

Open DYdydydyDY opened 5 months ago

DYdydydyDY commented 5 months ago

我想复现一下您在 https://github.com/taishan1994/pytorch_bert_bilstm_crf_ner 这篇中提到的“补充地址要素抽取实例”，用的数据集是您提到的CCKS2021中文NLP地址要素解析中的数据集，我想知道应该在哪些地方做修改

taishan1994 commented 5 months ago

按照这里某个数据集准备好ner_data下面格式就行。

DYdydydyDY commented 5 months ago

按照这里某个数据集准备好ner_data下面格式就行。

我将其中的数据集处理为这样的格式： {"id": 0, "text": ["浙"], "labels": ["B-prov"]} {"id": 1, "text": ["江"], "labels": ["E-prov"]} {"id": 2, "text": ["绍"], "labels": ["B-city"]}
{"id": 3, "text": ["兴"], "labels": ["I-city"]} {"id": 4, "text": ["市"], "labels": ["E-city"]} {"id": 5, "text": ["绍"], "labels": ["B-district"]} 但是没有成功预测出来，您觉得这样做有问题吗

taishan1994 commented 5 months ago

{"id": "AT1372", "text": ["故", "障", "现", "象", "：", "怠", "速", "时", "车", "辆", "排", "出", "的", "尾", "气", "进", "检", "测", "线", "不", "合", "格", "。"], "labels": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-故障设备", "I-故障设备", "O", "O", "O", "O", "B-故障原因", "I-故障原因", "I-故障原因", "O"]}