ai-forever / MERA

MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.
MIT License
49 stars 8 forks source link

влияние промпта на результаты бенчмарков #20

Closed vlsav closed 1 month ago

vlsav commented 1 month ago

запускал MERA на разных моделях, с lm-eval-0.4.2, с также с lm-eval-0.4.2 + не закоммиченный патч на apply_chat_template. Интересные наблюдения, с apply_chat_template тесты USE, RWSD, CheGeKa выдают как правило результаты лучше, особенно CheGeKa - в 3-4 раза больше. Большая часть несколько снижается - 10-20%, а ruModAr, SimpleAr, ruMultiAr ухудшаются катастрофически - в 3 - 20 раз. Видимо "чат" шаблон не для всех тестов применим?