cbiehl / wwi21-nlp

Natural Language Processing Lecture Repo
3 stars 0 forks source link

Comparison of finetuned Llama 2 and recource efficient LLM #7

Open LukasBDHBW opened 10 months ago

LukasBDHBW commented 10 months ago

The project aims to fine-tune the Llama 2 7B, a high-resource language model, using lecture data, and compare its performance with a mini Language Model (LLM) trained on the same dataset. The comparison will involve either a custom-built Distill Llama 2 LLM or an existing mini LLM that has been further trained. A significant aspect of the project is the preprocessing of lecture data, which includes not only text but also images embedded in slide presentations.

Group members: Marcus Wirth, Joschua Jakubek, Fabian Banovic, Lukas Bruckner

LukasBDHBW commented 10 months ago

https://github.com/LukasBDHBW/Study_Llama_mini

LukasBDHBW commented 8 months ago

Wäre es möglich, den Umfang der Ausarbeitung auf bis zu 6 Seiten zu erweitern?

Aufgrund der Komplexität unseres Projekts, das das Preprocessing der Vorlesungsinhalte, das Fine-Tuning mit QLora, die schrittweise Destillation von LLama 2 sowie die Evaluierung mittels verschiedener Metriken umfasst, haben wir festgestellt, dass eine umfassendere Darstellung für ein besseres Verständnis erforderlich ist. Daher glauben wir, dass eine Erweiterung über die ursprünglich vorgesehenen 4 Seiten sinnvoll wäre.

LukasBDHBW commented 8 months ago

Und könnten Sie uns Ihren Kaggle-Account-Namen geben, damit wir Sie in unseren Kaggle-Notebooks hinzufügen können?

cbiehl commented 8 months ago

Wäre es möglich, den Umfang der Ausarbeitung auf bis zu 6 Seiten zu erweitern?

Aufgrund der Komplexität unseres Projekts, das das Preprocessing der Vorlesungsinhalte, das Fine-Tuning mit QLora, die schrittweise Destillation von LLama 2 sowie die Evaluierung mittels verschiedener Metriken umfasst, haben wir festgestellt, dass eine umfassendere Darstellung für ein besseres Verständnis erforderlich ist. Daher glauben wir, dass eine Erweiterung über die ursprünglich vorgesehenen 4 Seiten sinnvoll wäre.

The limit is 4 pages. You can add an appendix with additional information in the PDF document (containing for example additional stats on datasets, visualizations, the evaluation, further implementation details, derivations, etc.). Reading the paper without the appendix must suffice to understand the project, which methods/evaluation schemes were used, the results and your interpretation of the results.

cbiehl commented 8 months ago

Und könnten Sie uns Ihren Kaggle-Account-Namen geben, damit wir Sie in unseren Kaggle-Notebooks hinzufügen können?

Kaggle user: https://www.kaggle.com/clemen5