ahmetaa / zemberek-nlp

NLP tools for Turkish.
Other
1.14k stars 207 forks source link

Synonoym/eş anlamlı gruplama #217

Closed cyurtoz closed 5 years ago

cyurtoz commented 5 years ago

Merhaba, Eş anlamlı sözcükleri tanımak ve sözcük kümesini daraltmak gereken durumlarda sadece tek bir sözcüğe map'lemek gibi bir çalışma yapmak mümkün mü? Yani varolan özellikleri kullanarak yapabilir miyiz?

Örneğin corpus içerisinde ilk olarak "sene"ye rastlandıysa, "yıl" her yerde "sene" ile değiştirilebilecek, hatta "yıllarca" vb. kelimeler de "senelerce" ile değiştirilecek.

mdakin commented 5 years ago

@cyurtoz Sozcukleri cozumledikten sonra sadece koku degistirip kelimeyi ayni ek kumesi ile tekrar olusturabilirsiniz. Zemberek icerisinde bunu yapan bir ornek var:

https://github.com/ahmetaa/zemberek-nlp/blob/master/examples/src/main/java/zemberek/examples/morphology/ChangeStem.java

Morfoloji bolumundeki dokumantasyona goz atabilirsiniz: https://github.com/ahmetaa/zemberek-nlp/tree/master/morphology#word-generation

cyurtoz commented 5 years ago

Anladım, bu iyiymiş. Ama eş anlamlılar ile ilgili bir dictionary/modül bulunmuyor anladığım kadarıyla?

ahmetaa commented 5 years ago

@cyurtoz Maalesef böyle bir sözlük projede mevcut değil. Ama bunun için yapılmış bir iki çalışma var diye biliyorum.