iflGARAJI10100 / taMAM

taMAM - Tarayıcı Mevzuat Arama Motoru
MIT License
9 stars 4 forks source link

Kanun Kategorisinin doldurulması #12

Closed sertacates closed 2 years ago

sertacates commented 2 years ago

Veri Ön İşleme Çalışmamız ve HuggingFace Modellerinin transformers ile kullanılması sonucunda Kanun Kategorisinde yer alan kayıtların data_text alanlarını işleyerek boş veya NaN hücreleri dolduralım.

sertacates commented 2 years ago

Eray, bulduğumuz son yönteme göre bugün veya yarın kanun diye kategori edilen bir dokumanın data_text alanından rega_no, rega_tarihi, mevzuat_no ve mevzuat_tarihi alanlarını doldurabilir misin? @ErAk042

ErAk042 commented 2 years ago

Üzerine çalışıyorum hocam bitirince haberdar ederim.

sertacates commented 2 years ago

Bu kategoride durum nasıl? 4 alanı dolduralım demiştik, doldurdunuz mu? Yöntemi derin öğrenme demiştik, whatsapptan kural bazlıya döndüğünüzü yazmıştınız, gelişim raporuna / dokümanına değişikliği bulguları ile eklediniz mi?

ErAk042 commented 2 years ago

Kural bazlı bir sistem geliştirdim. Şu anda %100 doğruluk ile çalışıyor. Şu anda üzerinde çalışıyoruz geliştirmek için

sertacates commented 2 years ago

aramaProjesiVeriIsleme_Kanun.ipynb

Aşağıdaki satırlara gerek var mı? Kod çalışırken yazmışsın ama sanki çözümünde kullanmıyorsun print(df.groupby('kategori').size()) print(df.loc[df['kategori'] == 'Tüzük']) print(df['data_text'][1857]) print(df['data_text'][515])

def aycevir(tarih): sadece bir blokta gözüksün diğer kodlar sonraki blokta gözüksün

metin = df['data_text'][i][:310].lower() 310 için bir değişiklik yapalım. Her dokümanda "Madde 1" var demiştiniz oraya kadar ki kısmı alın. Bazıları azalır bazıları artar ama sabit kalmaz. Sabit kalması acaba veri kaybına yol açabilir mi onu düşündüğüm için uyarıyorum.

Debug için yazdığınız print(rg_trh1) gibi satırları çıkarmak ister misiniz?

kn_trh1 = kn_trh1.replace('\n', '') kn_trh1 = kn_trh1.replace(' ', '')

bu replace kısımlarına \r eklemek ister misiniz?

Bu kısımları gözden geçirirsen sevinirim. Huggingface'ten seçtiğiniz ve vazgeçtiğiniz 5 model ile 10 kanunun içinde veri arayıp süresini gelişim raporuna belirtip kural tabanlı sisteme bu nedenle geçtiğinizi anlatırsan sevinirim.

Böylelikle kanun kategorisindeki diğer alanların doldurulmasına geçebiliriz.

ErAk042 commented 2 years ago

Tamamdır hocam kodu temizleyip yükleyeceğim temiz halini modellerin testini de yarın yaparım diye düşünüyorum

sertacates commented 2 years ago

Eray, Resmi Belge Kategori Ayrımı için yüklediğin dosyadaki gibi hem satır içi yorum (inline comment/statement) hem de program parçasının açıklaması için not defteri metni eklersen daha nitelikli olur.

sertacates commented 2 years ago

Eray, kategori, rega_no, mukerrer_no, rega_tarihi, mevzuat_no, mevzuat_tarihi ve madde_sayisi kısımları ile ilgili son durum nedir? Sadece mukerrer_no mu kaldı? @ErAk042

S-Toprak commented 2 years ago

Bütün alanları tamamladık hocam. Bütün Veri işlemeler birleştirildiğinde de kodu atarız.

sertacates commented 2 years ago

Elinize sağlık gençler, artık yarışma gününü bekleyeceğiz.