emres / turkish-deasciifier

Turkish deasciifier in Python based on Deniz Yüret's turkish-mode for Emacs
https://ileriseviye.wordpress.com/tag/turkish-deasciifier/
146 stars 23 forks source link

Sorunlu Kelimeler. #7

Open setanarut opened 4 years ago

setanarut commented 4 years ago

Sorunlu kelimelerin bazılarını derledim, turkish_pattern_table değişkeninde tanımlanırsa düzeltilebilir. olası kullanımları öğretmek gerekiyor. Sorunlu kelimeler

Cümle içinde kullanalım

Ascii Deasciifier hatalı çeviri
COK SIKSINIZ ÇOK SIKSINIZ
ASIK VEYSEL ASIK SURATLI MIYDI? AŞIK VEYSEL AŞIK SÜRATLİ MİYDİ?
AL KIRDIN SIKTIN BIRAKTIN! AL KIRDİN SIKTIN BIRAKTIN!
YEMEGI TASA KOY GETIR YEMEĞİ TAŞA KÖY GETİR
TURUNCGILLER TURUNÇĞİLLER
COK ACAR BIRI ÇOK AÇAR BİRİ
emres commented 4 years ago

Merhaba,

Detaylı analiz ve uygun örnekler için çok teşekkürler @hazarek!

turkish_pattern_table değişkeni doğrudan ve elle oluşturulmuş bir veri seti olmadığı için, ona doğrudan müdahale uygun olmayabilir.

Deniz Yüret hocanın burada da belirttiği gibi, "The Greedy Prepend Algorithm for Decision List Induction" yöntemi ile bir derlemden (corpus), otomatik olarak oluşturulmuş durumda. Maalesef derlemden otomatik olarak o karar listesini oluşturma işlevselliği bu projenin parçası değil.

Deniz hoca ya da siz, turkish_pattern_table değişkeni içinde tutulan veriyi bir derlemden otomatik olarak oluşturma programını kolayca kullanılabilir halde sunabilirseniz, o zaman belki daha büyük ve güncel bir Türkçe derlem üzerinden, daha doğru sonuçlar verecek bir liste oluşturmak mümkün olabilir.

Not: Bu arada, size yazdığım bu yorumu İngilizce klavye ile yazdım, Türkçe harflere çevirme işlemini de bu sistemle yaptım (corpus sözcüğü dışında düzgün çalıştı sistem). Bu vesile ile @denizyuret hocaya tekrar çok teşekkürler!

setanarut commented 4 years ago

Rica ederim @emres bey, aylar önce ASCII bir veritabanını düzeltmem gerekiyordu, hatalı çevirdiğini farkettiğimde vazgeçtim. https://github.com/aysnrgenc/TurkishDeasciifier bu depoda sinir ağları ile çalışan halini bulmuştum çok daha az hata yapıyor, yukarıdaki verdiğim örnekler kolaylıkla öğretilebilir.

emres commented 4 years ago

@hazarek, sayenizde @aysnrgenc tarafından geliştiren sistemden haberdar oldum, hemen README.md dosyasına da ekleyeyim aysnrgenc/TurkishDeasciifier'ı.

İlgili makalede sinir ağları ile çalışan sistem performansı %86 olarak belirtilmiş. (TABLE IV DIACRITIC RESOLUTION RESULT COMPARISON). Daha büyük bir derlem ve GPU kullanan bir makinada biraz daha uzun süre eğitilirse, ortaya %98 ya da daha yüksek oranda doğru sonuç veren bir model çıkarsa çok faydalı olabilir (teorik olarak bu işi %100 yapmak mümkün değil gibi görünüyor bana şimdilik, Türkçenin yapısından ötürü). Bunu biraz kurcalayayım, belki birileri destek verebilir işin bu tarafı için.

setanarut commented 3 years ago

kelimeler düzelene kadar açık kalması daha iyi.