ai-forever / MERA

MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.
MIT License
49 stars 8 forks source link

Значения логов бенчмарка #14

Open thehumit opened 4 months ago

thehumit commented 4 months ago

Прогоняем бенчмарк MERA на различных моделях и во всех в файлах _result.json поля

"metric": 0.0,
"metric_stderr": 0.0

Является ли сабмит бенчмарк с данными метриками валидным? Метрики рассчитываются после сабмита?

Так же в некоторых заданиях (например chegeka) логиты равняются нулю, это особенность задач?

LSinev commented 4 months ago

По первому вопросу, так и задумано, детальнее описано тут https://github.com/ai-forever/MERA/issues/3#issuecomment-1823968666

По второму вопросу, нужно больше деталей. То, что в логах начинается с logit_ не обязательно логиты содержит6 это просто поле так названо на уровне базового фреймворка https://github.com/ai-forever/MERA/blob/main/lm-evaluation-harness/lm_eval/evaluator.py#L1044