влияние промпта на результаты бенчмарков

запускал MERA на разных моделях, с lm-eval-0.4.2, с также с lm-eval-0.4.2 + не закоммиченный патч на apply_chat_template. Интересные наблюдения, с apply_chat_template тесты USE, RWSD, CheGeKa выдают как правило результаты лучше, особенно CheGeKa - в 3-4 раза больше. Большая часть несколько снижается - 10-20%, а ruModAr, SimpleAr, ruMultiAr ухудшаются катастрофически - в 3 - 20 раз. Видимо "чат" шаблон не для всех тестов применим?

ai-forever / MERA

влияние промпта на результаты бенчмарков #20