jiesutd / LatticeLSTM

Chinese NER using Lattice LSTM. Code for ACL 2018 paper.
1.8k stars 453 forks source link

新的训练集问题 #52

Closed AaronWhite95 closed 5 years ago

AaronWhite95 commented 5 years ago

您好,我现在想用自己的语料库训练,标签集必须要改成BIOES吗,还是BIO也可以,在哪里改标签集合呢? 谢谢

jiesutd commented 5 years ago

可以用BIO训练,也可以用我的脚本转化成BIOES训练,在有的预料上BIOES效果更好https://github.com/jiesutd/NCRFpp/blob/master/utils/tagSchemeConverter.py

AaronWhite95 commented 5 years ago

不只是BIO,我的标签集也不是PER,ORG这些,要改这些在代码的哪里改呢

jiesutd commented 5 years ago

没有关系,不需要改代码,只需要把数据格式处理成B-XX, I-XX, O,E-XX 即可.

guoy47 commented 5 years ago

你好,请问怎么将原始数据集变为BIO格式呢,MSRA的