ai-forever / MERA

MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.
MIT License
56 stars 8 forks source link

Ошибка при сабмитах на mera.a-ai.ru #7

Closed GorbetskiyDmitriy closed 8 months ago

GorbetskiyDmitriy commented 8 months ago

Добрый день.

При сабмите решения на сайт mera.a-ai.ru возникает "Ошибка" в подсчете метрики. Можно ли как-то посмотреть логи и узнать причину ошибки при отправке сабмита? Полагаю, что может быть битым или некорректно сформирован один json (на моей стороне) одного из бенчмарков во всем zip архиве. Есть ли возможность посмотреть на чем падает ошибка?

  1. Планируется ли доработка сайта по добавлению функционала просмотра логов?
  2. Есть ли в планах возможность скорить модели на отдельных бенчмарках, например, путем передачи одного json под конкретную задачу?

Спасибо.

Alenush commented 8 months ago

Добрый день, Дмитрий!

Действительно такая проблема есть, на стороне скоринг скрипта есть поддержка логов ошибок с описанием, почему упал деплой, но сайт обрабатывает сейчас неправильно, эту информацию не доносит. Будем исправлять в ближайшее время. С ростом сабмитов ещё обнаружили на сервере проблемы с таймаутами, возможно, что это не у вас ошибка в архиве, а в моменте произошел глюк, и переслать просто чуть позже тот же архив поможет.

Бенчмарк будет активно развиваться, спасибо, что сообщаете о проблемах и пожеланиях! Это ценно.

Под конкретную задачу не думали. В принципе в личном кабинете, если проставить рандомные значения у других задач и замерить, всё конечно пройдет и в личном кабинете можно будет увидеть результат. Для публичного всё-таки общий скор должен считаться из чего-то. 21 борд делать наверное странно.

Мы планируем мультимодальные задачи. Из-за них в любом случае необходимо будет делать динамический лидерборд и перестраивать внешний вид рейтинга. Плюс, скорее всего такие задачи как MMLU есть смысл отображать отдельно. Так что вероятность какие-то отдельные задачи или классы задач обрабатывать отдельно есть. Пока собираем по текущему лидерборду фидбэк.

GorbetskiyDmitriy commented 8 months ago

Добрый день.

Спасибо за развернутый ответ. Надеюсь в скором времени на бенчмарке можно будет увидеть развернутый лог ошибок, чтобы можно было разобраться, что пошло не так)

Поясню про возможность скоринга на отдельных бенчмарках, что имел в виду. Когда я писал, то больше акцентировал внимание на проприетарных моделях, где не всегда подразумевается публикация на общий лидерборд. А поскольку для проприетарной модели иногда сбор предиктов для всех задач будет слишком долгим, то хотя бы по отдельным задачам хотелось узнать независимую оценку качества модели на общем бенчмарке. Действительно можно подложить рандомные значения для других задач, но это тогда увеличивает количество расчетов на вашей стороне и как следствие количество возможных ошибок, таких как таймаут(