Closed bogdan01m closed 2 months ago
https://colab.research.google.com/drive/1912s1SV0RAU3LFLYKe_P_OGfPuKjX3No#scrollTo=62HIiS6fmSOO обучена модель на небольшом датасете собраном на просторах интернета с hugging face и kaggle
Выполнен Fine-tuning модели distilbert-base-uncased-finetuned-sst-2-english на датасете 800K в yandexcloud https://datasphere.yandex.cloud/communities/bt1koqsm03maqkp9bc2h/projects/bt145drqrrhh246ipl9n
Загружена приватно на HuggingFace https://huggingface.co/Bogdan01m/Distilbert_input_classifier И доступна на гугл диске https://drive.google.com/file/d/11PiSQdmhk6Nr6rKP00yLf0O8RNGmW4q7/view?usp=sharing
Оценка модели происходила на тестовой выборке в 128.5 K промптов, время расчета ~1 час
precision recall f1-score support
benign 0.86 0.97 0.91 82761
jailbreak 0.89 0.87 0.88 5492
prompt_injection 0.92 0.68 0.79 40247
micro avg 0.87 0.87 0.87 128500
macro avg 0.89 0.84 0.86 128500
weighted avg 0.88 0.87 0.87 128500
samples avg 0.87 0.87 0.87 128500
Добавлена новая модель, в которой был учтен дисбаланс классов с помощью class weight метрики на тестовой выборке:
precision recall f1-score support
benign 0.87 0.96 0.91 82761
jailbreak 0.91 0.90 0.90 5492
prompt_injection 0.91 0.72 0.80 40247
micro avg 0.88 0.88 0.88 128500
macro avg 0.90 0.86 0.87 128500
weighted avg 0.89 0.88 0.88 128500
samples avg 0.88 0.88 0.88 128500
доступна на hugging face: https://huggingface.co/Bogdan01m/Distilbert_input_classifier/tree/main
1) Изучение актуальных моделей 2) Fine-tuning при необходимости 3) Подсчет эффективности