ai-forever / MERA

MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.
MIT License
56 stars 8 forks source link

Как проскорить модель без метода loglikelihood? #5

Closed GorbetskiyDmitriy closed 8 months ago

GorbetskiyDmitriy commented 10 months ago

Добрый день!

Хотелось бы посчитать метрику на бенчмарке для модели доступной только по API (например chatGPT, BARD и тп.). Как в даном случае проскорить модель, если по API модель не возвращает logprobs?

На сколько я понимаю мы должны уметь для скоринга формировать словарь вида:

prompt_0:"Задание содержит вопрос по теме Математика и 4 варианта ответа A, B, C, D, из которых только один правильный. Выберите букву правильного ответа: Чему равен корень из 144? A 14 B 12 C 4 D 44 Ответ: A"
prompt_1:"Задание содержит вопрос по теме Математика и 4 варианта ответа A, B, C, D, из которых только один правильный. Выберите букву правильного ответа: Чему равен корень из 144? A 14 B 12 C 4 D 44 Ответ: B"
prompt_2:"Задание содержит вопрос по теме Математика и 4 варианта ответа A, B, C, D, из которых только один правильный. Выберите букву правильного ответа: Чему равен корень из 144? A 14 B 12 C 4 D 44 Ответ: C"
prompt_3:"Задание содержит вопрос по теме Математика и 4 варианта ответа A, B, C, D, из которых только один правильный. Выберите букву правильного ответа: Чему равен корень из 144? A 14 B 12 C 4 D 44 Ответ: D"
logit_0:-0.9664535356921388
logit_1:-0.4407325991753527
logit_2:-0.007491470058587191
logit_3:-0.9109759624491242

Есть ли возможность скорить модели использую только сгенерированный текст, а не логиты модели?

LSinev commented 10 months ago

Пока что нет. Сейчас прорабатываем механизм, чтобы можно было через API подключать модели разные. По сути, для замеров в некоторых задачах нужны логиты моделей. Это затрудняет обработку. Тестируем, чтобы это обойти. Будем рады предложениям и pull requests!