bahribaran / zemberek

Automatically exported from code.google.com/p/zemberek
0 stars 0 forks source link

TurkceMetinOkuyucu doğru çalışmıyor #15

Closed GoogleCodeExporter closed 8 years ago

GoogleCodeExporter commented 8 years ago
Özellikle istatistik işlemlerinde kullandığımız TurkceMetinOkuyucu ve onun
kullandığı TurkishTokenStream hatalı çalışıyor:
-Tüm kelimeleri küçük harf yapıyor
-tırnak, tire vs. işaretlerini sıyırıyorlar
Bu yüzden çözümleyici bu tür kelimelere hatalı diyor.  
Ya adam gibi bir okuyucu yapmalıyız, ya da geçici çözüm olarak bu 
hataları
tamir etmemiz gerekiyor

Original issue reported on code.google.com by mda...@gmail.com on 10 Dec 2006 at 8:51

GoogleCodeExporter commented 8 years ago
şimdilik bir hack ile TurkishTokenstream içerisindeki ilgili kodları 
kaldırdım ve
tırnak- tire gibi işaretleri de kelimelere dahil ettim. Bu şekilde problem 
çözülüyor
ama adam gibi bir tokenizere hala ihtiyacımız var.

Original comment by mda...@gmail.com on 10 Dec 2006 at 10:40