lonePatient / BERT-NER-Pytorch

Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)
MIT License
2.05k stars 425 forks source link

自定义数据集训练的话, 是不是只需要把数据集做成cluener的样子,放在dataset/cluener文件就可以了,需不需要为自己的数据集重写processor? #96

Open LXXiaogege opened 11 months ago

chasingdream9 commented 9 months ago

请问你用自定义的训练集训练成功了吗,我也是不知道怎么自己训练其他的数据集

jhy354 commented 9 months ago

格式一样就不用重写processor吧, 我半年前在华为云modelart上训练过自己的数据, 格式一样直接用就行了 或者格式不一样的话可以试试写个脚本转化成一样的格式, 这样方便一点, 不用改processor

Violettttee commented 8 months ago

格式一样就不用重写processor吧, 我半年前在华为云modelart上训练过自己的数据, 格式一样直接用就行了 或者格式不一样的话可以试试写个脚本转化成一样的格式, 这样方便一点, 不用改processor

如果我的标签有所增加删减的话,在processor中需要添加我增加/删除的标签吗?

jhy354 commented 8 months ago

格式一样就不用重写processor吧, 我半年前在华为云modelart上训练过自己的数据, 格式一样直接用就行了 或者格式不一样的话可以试试写个脚本转化成一样的格式, 这样方便一点, 不用改processor

如果我的标签有所增加删减的话,在processor中需要添加我增加/删除的标签吗?

是的, 如果不想改其实可以偷懒, 直接文本替换掉就行了 比如你用不到NAME, 那就把所有O-NAME B-NAME替换成你要的标签就行