[Feature Request] Support for OpenAI ChatCompletion models

kristaller486 commented 9 months ago

Поддерживается в оригинальной lm-evaluation-harness.
Позволяет тестировать неограниченный пул моделей через инструменты вроде vllm/llama.cpp-server/text-generation-webui/etc.
Настройка формата подсказки на стороне сервера.
Можно разделить машину для инференса и тестирования.
Можно тестировать проприетарные модели с openai-like api (например, mistral-medium).

LSinev commented 9 months ago

Связано с https://github.com/ai-forever/MERA/issues/5 на текущий момент, OpenAI ChatCompletion не поддерживают задачи, где нужны логиты. Но в lm-evaluation-harness работают над этим

LSinev commented 5 months ago

В ветке https://github.com/ai-forever/MERA/tree/update/new_harness_codebase с новым кодом lm-evaluation-harness (подключен сабмодулем из репозитория где уже внедрен не принятый пока в lm-evaluation-harness код для работы rutie таски) и переделанными тасками в yaml формате завели можете попробовать воспользоваться тем, что запрашивали. Также в порядке проб/экспериментов заведены *_gen таски вместо multiple_choice, чтобы можно было обходиться без логитов для оценки. Собрать такой сабмит, чтобы посмотреть приватным образом скор на сайте MERA, можете с использованием шелл скрипта https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/scripts/run_benchmark_gen.sh по аналогии с инструкцией для обычного случая: https://github.com/ai-forever/MERA/blob/update/new_harness_codebase/MODEL_SCORING.md#running-hf-models

ai-forever / MERA

[Feature Request] Support for OpenAI ChatCompletion models #10