Pertanyaan mengenai dataset clean 1.2k

dev.conll itu merupakan data untuk mengukur performance automatic annotation (post training clean model menggunakan configurasi diatas) yang dilakukan oleh model yang di train dengan clean data dan belum dimasukkan ke dalam report paper arxiv, untuk liat split 1k ada di folder cross-val
data tersebut dinamakan dev.conll karena merupakan subset dari original 20k tapi tidak overlap dengan 1.2k gold training yang dianotasi untuk melihat performance model dari noisy 20k selain dari goldstandard paper sebelumnya https://github.com/ialfina/ner-dataset-modified-dee/blob/master/goldstandard-0811.txt

kata-ai / wikiner