KefenGroup / turistomer-server

Server part of the 2023-2024 Spring Computer Science Final Project TOBB University of Economics and Technologies
0 stars 0 forks source link

Language Model Araştırması #11

Closed OguzKaanOselmis closed 6 months ago

OguzKaanOselmis commented 6 months ago

Görev Açıklaması

Kullanıcı tarafında istenen kısıtları en iyi şekilde anlayabilecek ve scraplenen datayla uygun çalışan bir language modeller araştırılmalı. Burada amaç problemimize en uygun task'ın hangi model kategorisi olduğunu bulunması, çok fazla computation power ve data gerektirmemesi adına problemimize uygun pre-tuned model bulunmasıdır.

Görev Gereksinimleri ve Yapılacaklar

Model task kategorisi ve base model aranırken dikkat edilmesi gereken noktalar:

Yazılım Tasarımı

Görev Çıktısı

Probleme en uygun task ve bu task'a ait pre-tuned bir model bulunması gereklidir. Zero-shot ve Few-shot learning vb case'ler denenerek ortalama bir çıktı yeterlidir. Kusursuz çıktı için fine-tuning tarafında geliştirmeler yapılacaktır.

OguzKaanOselmis commented 6 months ago

RAG

Birden fazla model ve farklı parametrelere sahip versiyonları, farklı tür data preprocessing ile RAG tarafında denenmiş ancak uygun sonuçlar alınamamıştır. LLama ve palm2 gibi büyük modellere bakıldığında da aynı sorunlar göze çarpmaktadır. Probleme uygun çıktı RAG tarafında sağlanamamıştır.

OguzKaanOselmis commented 6 months ago

LLama.cpp

Llama.cpp kullanılarak 7b ve 13b parametreli modellere grammer eklenerek modelin cümle içerisinden özel bir json çıkarılması amaçlanmıştır. Ancak istenilen özellikleri düzgün çıkarmaması, aynı prompta farklı yanıtlar vermesi, o özelliğin bulunmadığı case'lerde hallucinate yaşaması sebebiyle probleme uygun çıktı bulunamamıştır.

OguzKaanOselmis commented 6 months ago

Token classification task'ı dahilinde NER (Named Entity Recognition) taskı gereksinimler açısından en uygun task olarak görülmüştür.