Closed sertacates closed 2 years ago
Eray, bulduğumuz son yönteme göre bugün veya yarın kanun diye kategori edilen bir dokumanın data_text alanından rega_no, rega_tarihi, mevzuat_no ve mevzuat_tarihi alanlarını doldurabilir misin? @ErAk042
Üzerine çalışıyorum hocam bitirince haberdar ederim.
Bu kategoride durum nasıl? 4 alanı dolduralım demiştik, doldurdunuz mu? Yöntemi derin öğrenme demiştik, whatsapptan kural bazlıya döndüğünüzü yazmıştınız, gelişim raporuna / dokümanına değişikliği bulguları ile eklediniz mi?
Kural bazlı bir sistem geliştirdim. Şu anda %100 doğruluk ile çalışıyor. Şu anda üzerinde çalışıyoruz geliştirmek için
aramaProjesiVeriIsleme_Kanun.ipynb
Aşağıdaki satırlara gerek var mı? Kod çalışırken yazmışsın ama sanki çözümünde kullanmıyorsun print(df.groupby('kategori').size()) print(df.loc[df['kategori'] == 'Tüzük']) print(df['data_text'][1857]) print(df['data_text'][515])
def aycevir(tarih): sadece bir blokta gözüksün diğer kodlar sonraki blokta gözüksün
metin = df['data_text'][i][:310].lower() 310 için bir değişiklik yapalım. Her dokümanda "Madde 1" var demiştiniz oraya kadar ki kısmı alın. Bazıları azalır bazıları artar ama sabit kalmaz. Sabit kalması acaba veri kaybına yol açabilir mi onu düşündüğüm için uyarıyorum.
Debug için yazdığınız print(rg_trh1) gibi satırları çıkarmak ister misiniz?
kn_trh1 = kn_trh1.replace('\n', '') kn_trh1 = kn_trh1.replace(' ', '')
bu replace kısımlarına \r eklemek ister misiniz?
Bu kısımları gözden geçirirsen sevinirim. Huggingface'ten seçtiğiniz ve vazgeçtiğiniz 5 model ile 10 kanunun içinde veri arayıp süresini gelişim raporuna belirtip kural tabanlı sisteme bu nedenle geçtiğinizi anlatırsan sevinirim.
Böylelikle kanun kategorisindeki diğer alanların doldurulmasına geçebiliriz.
Tamamdır hocam kodu temizleyip yükleyeceğim temiz halini modellerin testini de yarın yaparım diye düşünüyorum
Eray, Resmi Belge Kategori Ayrımı için yüklediğin dosyadaki gibi hem satır içi yorum (inline comment/statement) hem de program parçasının açıklaması için not defteri metni eklersen daha nitelikli olur.
Eray, kategori, rega_no, mukerrer_no, rega_tarihi, mevzuat_no, mevzuat_tarihi ve madde_sayisi kısımları ile ilgili son durum nedir? Sadece mukerrer_no mu kaldı? @ErAk042
Bütün alanları tamamladık hocam. Bütün Veri işlemeler birleştirildiğinde de kodu atarız.
Elinize sağlık gençler, artık yarışma gününü bekleyeceğiz.
Veri Ön İşleme Çalışmamız ve HuggingFace Modellerinin transformers ile kullanılması sonucunda Kanun Kategorisinde yer alan kayıtların data_text alanlarını işleyerek boş veya NaN hücreleri dolduralım.