ai-forever / MERA

MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.
MIT License
56 stars 8 forks source link

Как бенчмарк закрытой модели, у которой нету метода loglikelihood? #11

Open chorus12 opened 7 months ago

chorus12 commented 7 months ago

Добрый день. Хотим поскорить закрытые модели - шаблон для Anthropic не работает(нет метода loglikelihood и токенизатора). В самом фреймворке, который вы используете, есть метод генерации для закрытых моделей generate_until (no logprobs). Это как-то надо прикручивать к текущему коду оценки MERA?

artemorloff commented 7 months ago

Добрый день! В данный момент скоринг моделей из Anthropic невозможен на нашем бенчмарке. Также OpenAI ChatCompletions невозможны, так как данные модели не возвращают логиты для поданных в них токенов (#10 и #5 ). Часть задач бенчмарка требует логиты для поданных в модель токенов (не для токенов генерации), что не позволяет скорить некоторые модели, доступные по API. Скоринг моделей от OpenAI, которые возвращают логиты (например, davinci-002), вы можете осуществить в ветке openai_completions. Мы работаем над усовершенствованием системы скоринга и будем рады вашим идеям и pull requests!