COMU / zemberek-extension

LibreOffice için Türkçe imla denetimi eklentisi.
https://comu.github.io/zemberek-extension
Mozilla Public License 2.0
33 stars 1 forks source link

Zemberek sözlüğü yaygın olarak yanlış yazılan kelimeleri içeyor. #12

Open ahmetaa opened 6 years ago

ahmetaa commented 6 years ago

Bu, #8 ile ortaya çıktı.

Zemberek NLP projesine kolaylık sağlaması için ayrı yazılması gerekirken yaygın olarak bitişik yazılan ya da yaygın kullanılan ama dil bilgisi açısından doğru olmayan bazı kelimeleri "EXT" etiketi ile, yani TDK dışı olarak işaretleyip yarı otomatik bir şekilde eklemiştik. Bu kelimeleri zemberek projesindeki non-tdk.dict içerisinde görebilirsiniz. (Proje içinde iki kere sihtf'e basıp dosyayı arayabilirsiniz) Bağlantı: https://github.com/ahmetaa/zemberek-nlp/blob/master/morphology/src/main/resources/tr/non-tdk.dict

Örneğin:

hayvanbilim [A:Ext]
hazırgiyim [A:Ext]
hazırol [A:Ext]
hazırolmak [A:Ext]
haznedarlık [A:Ext]
helallaşmak [A:Ext]
helisel [A:Ext]
hemşeri [A:Ext]
hercaimenekşe [A:Ext]
hergün [A:Ext]
herkül [A:Ext]
herşey [A:Ext]
heryer [A:Ext]
herzaman [A:Ext]

Bu kelimelerin hepsi imla açısından yanlış. Bunun yanında, bazı kelimeler de TDK'da yer almıyor ama muhtemelen doğru. Bunlar genelde alana özel kelimeler

hidrobiyolog [A:Ext]
hidrofilik [A:Ext]
hidrosefali [A:Ext]
hidrofobik [A:Ext]
hidrofobisite [A:Ext]
hidrografik [A:Ext]
hidrojeolog [A:Ext]
hidroklorür [A:Ext]

gibi. Bu konudaki çözüm alternatifleri: