StarlangSoftware / TurkishWordNet-CS

Turkish WordNet KeNet
GNU General Public License v3.0
2 stars 2 forks source link

Destek veren var mi acaba? #1

Closed NasiLL closed 3 years ago

NasiLL commented 3 years ago

Sadece commit headerlari var ve modullerin kullanimlari, birbirleriyle olan iliskileri, bir modulden cikti alip digerlerine girdi olarak nerelere nasil ulasilacagi vs. hic bir sey belirgin degil.

Bir cumleyi aldim, morfolojik analiz yaptim ve elimde kelimeler var diyelim. Sonra bunu belirsizlik gidericiye verip tek bir kelimeye indirgemek de mumkun o da net. Peki elimde kelime varken bu kelimenin WordNet deki relationslarina nasil ulasacagim? WordNet yalnizda TUR10-0814560 gibi Id aliyor, veya kelime koku aliyor. Elimde Id yok morfolojik analiz ve Belirsizlik giderici sadece size Kelime ve kok veriyor.

WordNetden kelimenin kokunu search etseniz yeniden basa donuyorsunuz elinizde 10 tane farkli anlam oluyor, nasil belirsizlik giderip hangi anlamdan yola cikacaksiniz..

Ben nereye baktimsa cozemedim. tabi dedigim gibi dokuman yok. 1 paragraf dokuman olsa gene faydasi olcakti.

Tesekkurler.

olcaytaner commented 3 years ago

Wordnetten kelime kökünü aradığınızda başa dönmüyorsunuz, kelimenin kökü zaten sizin elinizde, alternatif anlam sayınızı önemli ölçüde azaltmış oluyorsunuz. WordNet'te toplam 77.730 synset, 80.956 tekil literal, 109.049 toplam literal var. Bu da literallerin ortalama 1.34 synsete dahil olduğunu gösteriyor. Fakat ortalama synset sayısı da tam bir gösterge değil, çünkü çok anlamı olan bazı literaller de var. Örneğin tek bir synseti olan 64.416 literal var. Bu literaller için zaten kelime kökü size direkt anlamı veriyor. Diğer 16.000 literal için ise, Word Sense Disambiguation problemini çözmeniz gerekiyor. Bu noktada araştırmalarda yapılan bir teknik en sık kullanılan anlamı almak. Türkçe WordNet'te bu o literalin en küçük sense'ine sahip olanı. Ama ben tam bir Word Sense Disambiguation yapmak istiyorum diyorsanız, bunun için işaretlenmiş bir veri kümesine ve bir yapay öğrenme algoritmasına ve duruma göre öğrenme yapmak için özelliklere vs. ihtiyacınız var. Bu kısımı ayrı bir araştırma alanı ve tahmin edebileceğiniz gibi Türkçe anlam işaretlenmiş veri kısıtlı ölçekte var. Zaten Türkçe WordNet olmadan da bu veriyi üretmenin de imkanı yok. Kısıtlı ölçekte WordSenseDisambiguation için WordSenseDisambiguation paketine bakabilirsiniz.