stanleylsx / entity_extractor_by_ner

基于Tensorflow2.3开发的NER模型,都是CRF范式,包含Bilstm(IDCNN)-CRF、Bert-Bilstm(IDCNN)-CRF、Bert-CRF,可微调预训练模型,可对抗学习,用于命名实体识别,配置后可直接运行。
393 stars 74 forks source link

关于数据集标注 #19

Closed iiixiscientia closed 3 years ago

iiixiscientia commented 3 years ago

你好,我想尝试用这个模型来训练自己的训练集,但是我的领域里暂时没有大量的语料库或者词典,所以要自己打标签和BIO标注。请问哪种工具可以把数据集的标签打得和模型中的tokenid、vocabid、dev.csv和train.csv的格式一致?还是需要手动打tag?我的语料都是英文的。

stanleylsx commented 3 years ago

你好,我想尝试用这个模型来训练自己的训练集,但是我的领域里暂时没有大量的语料库或者词典,所以要自己打标签和BIO标注。请问哪种工具可以把数据集的标签打得和模型中的tokenid、vocabid、dev.csv和train.csv的格式一致?还是需要手动打tag?我的语料都是英文的。

我仓库里面的数据集是公开数据集,如果你要打标可能要去搜一搜打标平台了。