Zemberek NLP projesine kolaylık sağlaması için ayrı yazılması gerekirken yaygın olarak bitişik yazılan ya da yaygın kullanılan ama dil bilgisi açısından doğru olmayan bazı kelimeleri "EXT" etiketi ile, yani TDK dışı olarak işaretleyip yarı otomatik bir şekilde eklemiştik. Bu kelimeleri zemberek projesindeki non-tdk.dict içerisinde görebilirsiniz. (Proje içinde iki kere sihtf'e basıp dosyayı arayabilirsiniz)
Bağlantı: https://github.com/ahmetaa/zemberek-nlp/blob/master/morphology/src/main/resources/tr/non-tdk.dict
Bu kelimelerin hepsi imla açısından yanlış. Bunun yanında, bazı kelimeler de TDK'da yer almıyor ama muhtemelen doğru. Bunlar genelde alana özel kelimeler
İlk etapta bu listede yer alan kelimeleri çözümlemeye dahil etmemek
Bu listeyi elden geçirip makul kelimeleri bırakıp hatalı olanları başka bir dosyaya aktarmak. Gerçekten hatalı olanlara bir de "INFORMAL" etiketi eklemek. Bu dosyada 3500 civarında kelime bulunuyor.
Bu, #8 ile ortaya çıktı.
Zemberek NLP projesine kolaylık sağlaması için ayrı yazılması gerekirken yaygın olarak bitişik yazılan ya da yaygın kullanılan ama dil bilgisi açısından doğru olmayan bazı kelimeleri "EXT" etiketi ile, yani TDK dışı olarak işaretleyip yarı otomatik bir şekilde eklemiştik. Bu kelimeleri zemberek projesindeki non-tdk.dict içerisinde görebilirsiniz. (Proje içinde iki kere sihtf'e basıp dosyayı arayabilirsiniz) Bağlantı: https://github.com/ahmetaa/zemberek-nlp/blob/master/morphology/src/main/resources/tr/non-tdk.dict
Örneğin:
Bu kelimelerin hepsi imla açısından yanlış. Bunun yanında, bazı kelimeler de TDK'da yer almıyor ama muhtemelen doğru. Bunlar genelde alana özel kelimeler
gibi. Bu konudaki çözüm alternatifleri: