Модели путают склонения, падежи и т.д.

NeuralAIM commented 1 year ago

Примеры вывода модели:

Вы можете использовать их в любой ситуации, где **вас** требуется фамилия. вас - вам

Моё любимое животное - это **кота**. кота - кот

Почему бы и **ты** не рассказать мне о том, что тебе нравится делать в свободное время? ты - тебе

И так далее...

Проверял 7b/13b | v1/v2 используя ggml модели со стандартными настройками.

Пытался изменить настройки, но положительных результатов не дало 😄

AlexTracks commented 1 year ago

Поддерживаю, данная проблема у меня тоже.

И планируется выпуск 70b+ моделей? Новые квантования? Переделка под gguf?

IlyaGusev commented 1 year ago

Привет, это к сожалению норма, и 70B это не полечит. Модели на основе Лламы без LM дообучения на большом русском корпусе нормально склонять слова не научатся. Смотрите в сторону ГигаСайги.

Насчёт 70B: я сейчас пытаюсь сократить датасет, чтобы это вышло дешевле. В README есть реквизиты, по которым можно задонатить. Через пару дней начну обучать, через неделю будет готово.

Новые квантования как будто и не нужны особо. GGUF будет.

Andrew-MK commented 1 year ago

А как в индустрии принято проверять модели на адекватность владения русскоязычной письменностью?

Я имею ввиду не сообразительность модели на задания (вход) на русском языке с ответами в духе да/нет или цитатами из входного контекста, как делается в RussianSuperGLUE, а как в данной теме, что в целом модель хорошо на русском языке пишет.

Если перплексию мерять, то как (просто взять тексты нужного стиля и какая модель выдаст меньшую перплексию та и лучше владеет русским языком в нужном стиле)?
Кажется что бенчмарки по реферированию/перефразированию могли бы помочь в данной оценке, но после Секреты генерирующего реферирования текстов обзор на метрики и обзор на доступные наборы данных к большому сожалению не вышел в свет и не ясно как такое делать.
Команда SberDevices также выпустила MMLU in Russian со встроенной поддержкой Сайги, но не опубликовала результаты замеров и кажется этот тест также покажет сообразительность, а не не какая модель лучше владеет/пишет на русском языке.

IlyaGusev commented 1 year ago

Вопрос хороший.

Перплексию можно измерять только между моделями с одинаковыми токенизаторами, это убивает весь метод.
Нет, большинство автоматических метрик, типа chrF, не слишком чувствительны к грамматическим ошибками.
Верно, MMLU вообще никак не связан с владением языком. Результаты замеров у них есть в канале, там чуть хуже базовой модели.

Есть RuCoLA, которая именно про грамматичность, но она к сожалению больше про классификацию, а не про генерацию.

С моей точки зрения вот какой датасет нужен: дан префикс и два варианта продолжения, из которых один корректный, а один - некорректный. И модели нужно выбрать. Что-то типа вот этого или этого. Можно даже взять отрицательные примеры из RuCoLA, и сделать из них пары.

Важно, чтобы примеры использовали только левый контекст.

IlyaGusev commented 1 year ago

А, и 70B вышла: https://huggingface.co/IlyaGusev/saiga2_70b_lora

saiga2_70b vs gpt-3.5-turbo: 91-10-75

IlyaGusev / rulm

Модели путают склонения, падежи и т.д. #26

Примеры вывода модели: