fatihint / lugatrap

Vocabulary investigation of turkish rap musicians.
https://fatihint.github.io/lugatrap
Apache License 2.0
1 stars 0 forks source link

Stop wordleri filtrelemenin kolay bir yolu? #1

Open ghost opened 2 years ago

ghost commented 2 years ago

Merhaba, Neredeyse tüm müzisyenlerin ilk on kelimesinde sunulan verinin özgün olma niteliğini düşüren bir, ben, sen, o, bu, olmak, gelmek, yok, ne gibi stop wordler mevcut.

Bunlar, üzerinde herkesin anlaştığı kelimeler olmamakla birlikte bazı listeler şu şekilde:

Gördüğüm kadarıyla kelime analizi tamamen zemberek-nlp'ye bırakılmış. zemberek'in iç işleyişini çok iyi bilmeyen birisi olarak bu tür kelimeleri hesaba katmamak gibi bir durum söz konusu mudur merak etmekteyim.

fatihint commented 2 years ago

Merhaba, feedback için teşekkürler.

Zemberek benim process ederken kullandığım şekli ile default olarak bu kelimeleri ignore etmiyor. Açıkçası dökümantasyonda doğrudan bunu sağlayacak bir konfigürasyon paramteresi de göremedim. Ama sizin gönderdiğiniz listelerden birini kullanarak yarı manuel bir şekilde çözülebilir.

Unique word count için stop word'leri de dahil etmenin mantıklı olduğunu düşünmekteyim ancak "en çok kullanılan ilk on kelime" listesi konusunda size katılıyorum, stop word'leri dahil etmemek daha mantıklı bir sonuç verecektir. Vakit bulduğumda ekleyeceğim. Feedback'iniz için tekrar teşekkürler.