ahmetaa / zemberek-nlp

NLP tools for Turkish.
Other
1.14k stars 207 forks source link

Wiki #27

Closed selam closed 8 years ago

selam commented 9 years ago

Bir kaç wiki sayfası hazırlasan ne güzel olur, proje ne durumda eski zemberek kütüphanesine ne oldu, Lucene, Solr, Elasticsearch ile birlikte kullanabiliyormuyuz yoksa snowball'dan mı devam edeceğiz, sistem kütüphanelerimizi yenileyelim mi? libreoffice vb. uygulamaların zemberek köprüleri güncellensin mi? Neden eski kod ile bu yeni kod birbirinden bu kadar uzak?

Bunları biraz anlatsan ne güzel olur

iorixxx commented 9 years ago

Selam Timu, lucene/solr/es entegrasyonu için şu projeyi başlattım : https://github.com/iorixxx/lucene-solr-analysis-turkish

Bütün available çözümleyicileri eklemeyi düşünüyorum tek tek. Information Retrieval contex'inde karşılaştırma gibi düşüncelerimde var.

selam commented 9 years ago

Merhaba, O çalışmayı gördüm ve https://github.com/skroutz/elasticsearch-analysis-turkishstemmer şu çalışmadan da haberim var, benim asıl merak ettiğim zemberek-nlp'nin şu andaki hali, kodun değişme nedenleri, kısaca tarihçesi ve stabilitesi diyelim.

Sende takdir edersin ki geliştiriciler olarak kullandığımız kütüphanelere bir şekilde güven duyabilmemiz lazım, Bunun için en iyi kaynağımız da dökümantasyon ve tarihçesi. Bu nedenle bu kısmın en az projenin ilerleyişi kadar önemli olduğunu düşünüyorum. En azından projeyi Otobüs etkisinden kurtaralım biraz, birde böylesine önemli bir çalışmayı insanlardan saklamamak lazım.

Vakit buldukça en azından bir kaç gün wiki ile ilgilenebilirsen çok kazançlı olur düşüncesindeyim. Benim bilgim ne yazık ki kodu anlamaya pek yetmiyor ancak yapabileceğim bir şeyler olduğunu düşünüyorsan belirtmekten çekinme, çalışmanın genişlemesi önemli bence.

ahmetaa commented 9 years ago

Merhaba. Bu konuda bir şeyler yazacağım ilk fırsatta.

ahurriyetoglu commented 9 years ago

Ben de katkıda bulunmaktan mutluluk duyarım. Haber vermeniz yeterli.

iorixxx commented 9 years ago

Zemberek'in daha canlandırılmasını ben de düşünüyordum nasıl yapılabiir diye. Atıl bir proje olarak görülüyor dışardan bakıldığında şu anda. En azından stemmer olarak Apache projelerine girmesi gerekir diye düşünüyorum. Ve domain specific customize edilebilir olması ve bunun dokumantasyonu çok önemli. Mesala e-commerce için kullanan birisi amiga diye kökü hemen ekleyebilmeli vs. Böylece amigalar için kaset gibi bir sorgu gelebilir. Bizde sentence tokenization işine girilmemeli. Bunun için çözümler var zaten.

selam commented 9 years ago

Projeyi github'da yaklaşık 3 hafta önce gördüğümde hımm biri google code'dan buraya fork atmış öylede bırakmıştır bence bi bakalım en son commit ne zamanmış diye düşünmedim değil açıkcası. Commit tarihlerine baktığımda aktif olduğunu fark ettim.

Canlandırılması için en önemli şey geliştiricilerin dikkatini çekebilmek diye düşünüyorum, projenin yaşadığına dair tek emare son commit tarihi. Lisp yada erlang bir anda geliştiricilerin ilgi odağı oldular ve yıldızları parlamaya başladı, bu parlamanın en büyük nedenlerinden biri ihtiyaçları doğrultusunda bu dilleri kullanan insanların yazdıkları oldu. Arama ise bir başka hikaye aslında. Pek çok geliştiricinin "arama'dan beklentileriniz nedir?" sorusuna cevap verebileceğini sanmıyorum hatta buna iş sahipleri de dahil. Zemberek özelinde örneğin önümüzdeki özgür web teknolojileri günlerin'de bir sunum yapılabilirsin. Bu sunumda önce problemin tanımı, yani arama nedir, arama'dan beklentiler nedir gibi problemleri ortaya koyup ardından da çözüm olarak Zemberek var diyebilirsin. Bu özellikle yakın zamanda mezun oalcak ve web ile ilgilenecek kişilere zembereği tanıtmak için bir avantaj. Bu aynı zamanda bu konu hakkında blog yazıları demek, etkinliğe katılamayanlara da ulaşabilmek demek.

Şimdiye kadar gözlemlediğim kadarı ile ES, Solr, Sphinx gibi teknolojileri yabancı kaynaklı döküman ve bloglardan okuyarak oo hacı bak aramayı hızlandırıyormuş bu, bunu kullanalım'dan daha öte bir kullanım pek göremedim. (döküman saklama/arama yapan, bunun için donanım ve/veya hizmet satanlar hariç) . Bu etkinlikde yer alman, projenin canlanması için bir fırsat olabilir.

Cümle ayırma (sentence tokanization) mevcut türkçe için düzgün çalışıyor ise girilmesin tabii :)

ahmetaa commented 8 years ago

İki sene sonra bir şeyler yazdım :) https://github.com/ahmetaa/zemberek-nlp/wiki

iorixxx commented 8 years ago

Wiki'nin What about Libre Office or Lucene-Solr extensions? kısmına benim projeme link vermeniz mümkün olur mu acaba? https://github.com/iorixxx/lucene-solr-analysis-turkish

ahmetaa commented 8 years ago

@iorixxx tabi.