Closed OguzKaanOselmis closed 6 months ago
Birden fazla model ve farklı parametrelere sahip versiyonları, farklı tür data preprocessing ile RAG tarafında denenmiş ancak uygun sonuçlar alınamamıştır. LLama ve palm2 gibi büyük modellere bakıldığında da aynı sorunlar göze çarpmaktadır. Probleme uygun çıktı RAG tarafında sağlanamamıştır.
Llama.cpp kullanılarak 7b ve 13b parametreli modellere grammer eklenerek modelin cümle içerisinden özel bir json çıkarılması amaçlanmıştır. Ancak istenilen özellikleri düzgün çıkarmaması, aynı prompta farklı yanıtlar vermesi, o özelliğin bulunmadığı case'lerde hallucinate yaşaması sebebiyle probleme uygun çıktı bulunamamıştır.
Token classification task'ı dahilinde NER (Named Entity Recognition) taskı gereksinimler açısından en uygun task olarak görülmüştür.
Görev Açıklaması
Kullanıcı tarafında istenen kısıtları en iyi şekilde anlayabilecek ve scraplenen datayla uygun çalışan bir language modeller araştırılmalı. Burada amaç problemimize en uygun task'ın hangi model kategorisi olduğunu bulunması, çok fazla computation power ve data gerektirmemesi adına problemimize uygun pre-tuned model bulunmasıdır.
Görev Gereksinimleri ve Yapılacaklar
Model task kategorisi ve base model aranırken dikkat edilmesi gereken noktalar:
Yapılacaklar
Yazılım Tasarımı
Görev Çıktısı
Probleme en uygun task ve bu task'a ait pre-tuned bir model bulunması gereklidir. Zero-shot ve Few-shot learning vb case'ler denenerek ortalama bir çıktı yeterlidir. Kusursuz çıktı için fine-tuning tarafında geliştirmeler yapılacaktır.