Saya memerika data di google drive dan menurut ekspolrasi saya, 1k_gold.conll.final memiliki hampir 1.2k entri dan dev.conll memiliki hampir 1k entri. Saya ingin mengkonfirmasi bahwa apakah ini memang seperti ini datasetnya? Saya mengira bahwa dev.conll harusnya hanya 200 entri.
dev.conll itu merupakan data untuk mengukur performance automatic annotation (post training clean model menggunakan configurasi diatas) yang dilakukan oleh model yang di train dengan clean data dan belum dimasukkan ke dalam report paper arxiv, untuk liat split 1k ada di folder cross-val
Saya memerika data di google drive dan menurut ekspolrasi saya, 1k_gold.conll.final memiliki hampir 1.2k entri dan dev.conll memiliki hampir 1k entri. Saya ingin mengkonfirmasi bahwa apakah ini memang seperti ini datasetnya? Saya mengira bahwa dev.conll harusnya hanya 200 entri.