ai-forever / MERA

MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.
MIT License
49 stars 8 forks source link

[Feature Request] Support for OpenAI ChatCompletion models #10

Open kristaller486 opened 5 months ago

kristaller486 commented 5 months ago
LSinev commented 5 months ago

Связано с https://github.com/ai-forever/MERA/issues/5 на текущий момент, OpenAI ChatCompletion не поддерживают задачи, где нужны логиты. Но в lm-evaluation-harness работают над этим

LSinev commented 1 month ago

В ветке https://github.com/ai-forever/MERA/tree/update/new_harness_codebase с новым кодом lm-evaluation-harness (подключен сабмодулем из репозитория где уже внедрен не принятый пока в lm-evaluation-harness код для работы rutie таски) и переделанными тасками в yaml формате завели можете попробовать воспользоваться тем, что запрашивали. Также в порядке проб/экспериментов заведены *_gen таски вместо multiple_choice, чтобы можно было обходиться без логитов для оценки. Собрать такой сабмит, чтобы посмотреть приватным образом скор на сайте MERA, можете с использованием шелл скрипта https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/scripts/run_benchmark_gen.sh по аналогии с инструкцией для обычного случая: https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/MODEL_SCORING.md#running-hf-models