Closed sertacates closed 2 years ago
İncelemeye başladım hocam, daha sonra üzerinde konuşuruz
Hocam ben de küme üzerinde çalışıyorum şu anda
Tamam, o zaman Eray, bu başlığı IN PROGRESS (Üzerinde Çalışılıyor) kısmına alır mısın? Pazar günü galiba sen yolda olacaksın biz Seyithan Toprak ile zoom toplantısı yaparız. Buraya kararları yazarız. Sen de buradan takip edersin.
Veri Kümesi ile ilgili yapmamız gerekenler:
NOT: Özellik çıkarma, eğitim ve tahmin için model arama / derin öğrenme kısmına odaklanacağız.
Kategori | İçerik Sayısı | İlgili alanlar (Üst Veriler)
Veri kümesindeki işlemleri yaparken bize verilen README.html dokümanındaki alanları da kontrol edelim. Orada istenilenlere göre aramayı yaparız. data_text üzerinde işimiz oldukça fazla...
Veri Kümesi Ön işlemlerini Kanun @ErAk042 ve KHK @S-Toprak kategorilerinin rega_no, rega_tarihi, mevzuat_no ve mevzuat_tarihi alanlarını doldurulmadan yapmak gerekiyor. data_text alanının içinde veri ön işleme yapmayı ihmal etmeyelim.
data_text ve baslik alanlarını temizledikten sonra Doğal Dil İşleme yapıyorsunuz değil mi?
Hocam date_text ve baslik alanında şimdilik sadece whitespace, \n ve \r temizledik. Veri işlerken karşılaştığımız büyük bir problem yok ama lowercase yapmayı da ihmal etmeyiz.
Hocam date_text ve baslik alanında şimdilik sadece whitespace, \n ve \r temizledik. Veri işlerken karşılaştığımız büyük bir problem yok ama lowercase yapmayı da ihmal etmeyiz.
Bence tüm alanları küçük harfe (lowercase) çevirin, ileride problem yaşamayalım, madde sayısını bulurken bir sürü madde yazım şekli olacak sonra çorbaya dönecektir.
Hocam, küçük harf işi problem çıkartıyor.
def kategoriBul(verilenMetin): verilenMetin = verilenMetin.replace(' ','') verilenMetin = verilenMetin.replace('\n','') verilenMetin = verilenMetin.replace('\r','')
Mesela yukarıdaki gibi temizlik yapsak yeterli olur olur mu?
Her veri için geçerli değil ama (' ',''), (' ',''), ('\n',''), ('\r',''), (':',''), ('.',''), ('ý','ı'), ('i̇','i') ve ('\','') gibi noktalama işaretleri ve Türkçe olmayan ama çeviri esnasında ı ve i için kullanılan harfleri de temizleme sürecine dahil edebilirsiniz.
lower metodunu veri temizleme kullanmayalım, veri üzerinde işlem yaparken kullanalım mı?
Bugünkü e-posta doğrultusunda sadece veri doldurmaya yöneliyoruz. Kural bazlı gideceğiz ve zamanımız kalırsa modellerdeki performansımızı da yansıtacağız.
Model bazlı arama yapmayacağımıza kararlaştırdığımız için issue'yı kapatıyorum hocam
Elinize sağlık gençler, artık yarışma gününü bekleyeceğiz.
Bugün Tuba Hanım ve Bora Beyin toplantıda bahsettikleri veri kümesi için "Veri Seti Kullanım Protokolü" nü imzalayıp ilettik. e-Posta ekinde veri kümesi geldi. 24 Temmuz 2022'de bir zoom toplantısı yapalım. Veri ön işlemleri ve model eğitimi konusunda konuşalım, olur mu?