Language Model Araştırması

OguzKaanOselmis commented 6 months ago

Görev Açıklaması

Kullanıcı tarafında istenen kısıtları en iyi şekilde anlayabilecek ve scraplenen datayla uygun çalışan bir language modeller araştırılmalı. Burada amaç problemimize en uygun task'ın hangi model kategorisi olduğunu bulunması, çok fazla computation power ve data gerektirmemesi adına problemimize uygun pre-tuned model bulunmasıdır.

Görev Gereksinimleri ve Yapılacaklar

Model task kategorisi ve base model aranırken dikkat edilmesi gereken noktalar:

Model, data güncellendiğinde baştan train gerektirmemeli
Prompt'tan uygun feature'ları çıkarabilmeli
Bulunan task modelleri birden fazla ve farklı parametre sayılarına sahip olmalı
Task'a özel data processing yapılmalı
Çıktı verirken kabul edilebilir zaman içerisinde vermeli, çok uzun sürmemeli
Fine-tuning yapılacak base model donanım kısıtları sebebiyle problemimize yakın pre-tuned model olmalı
Yapılacaklar
[x] RAG ( Retrieval Augmented Generation ) modellerinin araştırılması ve birden fazla model ile denenmesi
[x] Embedding aşamaları ile data-model iletişimi denenmesi
[x] Dil modeline llama.cpp ve benzeri modeller kullanılarak grammer yükleme denemeleri yapılması ve çıktılarının incelenmesi
[x] Token classification taskına ait modellerin incelenmesi
[x] Text-to-text taskına ait modellerin incelenmesi

Yazılım Tasarımı

Modeller denenirken dikkat edilmesi gereken nokta aynı task'a ait modellerin birden fazla farklı parametre sayılarına ait modelleri denenmeli, çıktılarının durumları, çıktı verme süreleri ve eğitim için gerekli computation power araştırılmalıdır.

Görev Çıktısı

Probleme en uygun task ve bu task'a ait pre-tuned bir model bulunması gereklidir. Zero-shot ve Few-shot learning vb case'ler denenerek ortalama bir çıktı yeterlidir. Kusursuz çıktı için fine-tuning tarafında geliştirmeler yapılacaktır.

OguzKaanOselmis commented 6 months ago

RAG

Birden fazla model ve farklı parametrelere sahip versiyonları, farklı tür data preprocessing ile RAG tarafında denenmiş ancak uygun sonuçlar alınamamıştır. LLama ve palm2 gibi büyük modellere bakıldığında da aynı sorunlar göze çarpmaktadır. Probleme uygun çıktı RAG tarafında sağlanamamıştır.

OguzKaanOselmis commented 6 months ago

LLama.cpp

Llama.cpp kullanılarak 7b ve 13b parametreli modellere grammer eklenerek modelin cümle içerisinden özel bir json çıkarılması amaçlanmıştır. Ancak istenilen özellikleri düzgün çıkarmaması, aynı prompta farklı yanıtlar vermesi, o özelliğin bulunmadığı case'lerde hallucinate yaşaması sebebiyle probleme uygun çıktı bulunamamıştır.

OguzKaanOselmis commented 6 months ago

Token classification task'ı dahilinde NER (Named Entity Recognition) taskı gereksinimler açısından en uygun task olarak görülmüştür.

KefenGroup / turistomer-server