Turkce datasetlerinin toplanmasi, arastirmacilar icin bir yerde erisime acilmasi. Bu projede datasetlere unique bir ID atanacak, bu ID'nin icinde degisik bilgiler kodlanabilecek.
Bu tur etiketsiz datasetlerin siniflandirilmasi daha kolay onun icin once, onlarla baslanabilir. Bu tur datalari toplarken birkac bilginin verilmesi gerekiyor:
Size bilgileri, kac (MBs, Words, tweets etc..)
Tarihli ise tarih bilgisi.
Genre bilgisi: (Generic, Web Crawl, News, Resmi yazi, Kitap etc..)
Turkce datasetlerinin toplanmasi
Turkce datasetlerinin toplanmasi, arastirmacilar icin bir yerde erisime acilmasi. Bu projede datasetlere unique bir ID atanacak, bu ID'nin icinde degisik bilgiler kodlanabilecek.
Google sheets: Veri kaynaklari
Kunye tasarisi taslak dokumani burada
Etiketsiz datasetler (Text corpus)
Bu tur etiketsiz datasetlerin siniflandirilmasi daha kolay onun icin once, onlarla baslanabilir. Bu tur datalari toplarken birkac bilginin verilmesi gerekiyor:
baska bilgiler varsa onlar da eklenebilir.
Aday datasetler:
Etiketli datasetler
Bu tur datasetlerin daha farkli istatistikleri bulunabilir.