Disambiguation Model - Githubissues

gizem-gg commented 4 years ago

Merhabalar, Öncelikle böyle bir tool için teşekkürler.

Araştırma takımı olarak disambiguation module'ünü biraz daha iyileştirmeye çalışıyoruz. Bunun için ilk aşama olarak dataset'i genişletmeye karar verdik, daha yeni ve kapsamlı bir veri seti etiketliyoruz. Sonrasında da belki daha yeni bir model de düşünülebilir. Sorum şu, pre-trained model var ancak bu model'i oluştururken kullanılan sadece gold dataset'ine ulaşabildik repo'da. Diğer "aljazeera", "wowturkey", "open-subtitles", "haberturk" ve "sak.train" dataset'lerine nereden ulaşabiliriz acaba? Ayrıca model'in weight'lerinin fine-tune edildiği "sak.dev" ve model'in test edildiği "sak.test" dataset'lerine de ulaşamadık.

Yalnızca gold veri setini ve yeni label'ladığımız dataset'ini kullanınca başarımı yükseltmeyi başaramıyoruz maalesef.

Yardımcı olursanız çok sevinirim, Çok teşekkürler şimdiden, Gizem

ahmetaa commented 4 years ago

Merhaba. Bu konuda yardimci olacagim. Daha onceden de benzeri istekler gelmisti ama mesguliyet nedeniyle cevap verememistim.

gizem-gg commented 4 years ago

Geri dönüşünüz için çok teşekkürler. O zaman bilgilendirme için beklemedeyim.

İyi çalışmalar.

gizem-gg commented 4 years ago

Dataset'leri bulup paylaşmak zaman alabilir belki. Acaba sizden model'in uncompressed halini alabilememiz mümkün olur mu? Belki bu şekilde de başarımı arttırabiliriz diye düşündük.

Teşekkürler.

ahmetaa / zemberek-nlp

Disambiguation Model #253