Closed SonDilBukuculer closed 3 years ago
Rakamların olması da bir şeyi değiştirmiyor, rakamları da noktalama işaretleri ile birlikte kaldıralım.
Etkisiz kelimeler (stop words) eklendi
Normaliyazyon için zemberek denendi ama cumle başına 6-10 saniye gibi uzun bir sürede cevap verdiği için normalizasyondan vazgeçildi.
StarlangSoftware/TurkishDeasciifier-Py eklenmedi, anlamlı bir farklılık oluşturmuyor. Heceleme kontrolü eklenmedi. anlamlı bir farklılık oluşturmuyor
Tüm büyük harfler küçük harflere çevriliyor
Noklama işaretleri kaldırılıyor
Bilinen kısaltmalar açılıyor
üzerinde çalışacaklarımız ise
stopwords eklenecek Cümle / kelime normalizasyonu eklenecek StarlangSoftware/TurkishDeasciifier-Py eklenecek Heceleme kontrolü ama kesin değil, eklenebilir