Fed0d / monitox

0 stars 0 forks source link

Подобрать LLM для классификации входа модели (песочница) #10

Closed bogdan01m closed 2 months ago

bogdan01m commented 2 months ago

1) Изучение актуальных моделей 2) Fine-tuning при необходимости 3) Подсчет эффективности

bogdan01m commented 2 months ago

https://colab.research.google.com/drive/1912s1SV0RAU3LFLYKe_P_OGfPuKjX3No#scrollTo=62HIiS6fmSOO обучена модель на небольшом датасете собраном на просторах интернета с hugging face и kaggle

bogdan01m commented 2 months ago

Выполнен Fine-tuning модели distilbert-base-uncased-finetuned-sst-2-english на датасете 800K в yandexcloud https://datasphere.yandex.cloud/communities/bt1koqsm03maqkp9bc2h/projects/bt145drqrrhh246ipl9n

Загружена приватно на HuggingFace https://huggingface.co/Bogdan01m/Distilbert_input_classifier И доступна на гугл диске https://drive.google.com/file/d/11PiSQdmhk6Nr6rKP00yLf0O8RNGmW4q7/view?usp=sharing

Оценка модели происходила на тестовой выборке в 128.5 K промптов, время расчета ~1 час

              precision    recall  f1-score   support

          benign       0.86      0.97      0.91     82761
       jailbreak       0.89      0.87      0.88      5492
prompt_injection       0.92      0.68      0.79     40247
      micro avg       0.87      0.87      0.87    128500
      macro avg       0.89      0.84      0.86    128500
     weighted avg       0.88      0.87      0.87    128500
     samples avg       0.87      0.87      0.87    128500
bogdan01m commented 2 months ago

Добавлена новая модель, в которой был учтен дисбаланс классов с помощью class weight метрики на тестовой выборке:

                 precision    recall  f1-score   support

          benign       0.87      0.96      0.91     82761
       jailbreak       0.91      0.90      0.90      5492
prompt_injection       0.91      0.72      0.80     40247
       micro avg       0.88      0.88      0.88    128500
       macro avg       0.90      0.86      0.87    128500
    weighted avg       0.89      0.88      0.88    128500
     samples avg       0.88      0.88      0.88    128500

доступна на hugging face: https://huggingface.co/Bogdan01m/Distilbert_input_classifier/tree/main