Open ghost opened 2 years ago
Merhaba, feedback için teşekkürler.
Zemberek benim process ederken kullandığım şekli ile default olarak bu kelimeleri ignore etmiyor. Açıkçası dökümantasyonda doğrudan bunu sağlayacak bir konfigürasyon paramteresi de göremedim. Ama sizin gönderdiğiniz listelerden birini kullanarak yarı manuel bir şekilde çözülebilir.
Unique word count için stop word'leri de dahil etmenin mantıklı olduğunu düşünmekteyim ancak "en çok kullanılan ilk on kelime" listesi konusunda size katılıyorum, stop word'leri dahil etmemek daha mantıklı bir sonuç verecektir. Vakit bulduğumda ekleyeceğim. Feedback'iniz için tekrar teşekkürler.
Merhaba, Neredeyse tüm müzisyenlerin ilk on kelimesinde sunulan verinin özgün olma niteliğini düşüren bir, ben, sen, o, bu, olmak, gelmek, yok, ne gibi stop wordler mevcut.
Bunlar, üzerinde herkesin anlaştığı kelimeler olmamakla birlikte bazı listeler şu şekilde:
Gördüğüm kadarıyla kelime analizi tamamen zemberek-nlp'ye bırakılmış. zemberek'in iç işleyişini çok iyi bilmeyen birisi olarak bu tür kelimeleri hesaba katmamak gibi bir durum söz konusu mudur merak etmekteyim.