IlyaGusev / rulm

Language modeling and instruction tuning for Russian
Apache License 2.0
450 stars 51 forks source link

Модели путают склонения, падежи и т.д. #26

Open NeuralAIM opened 1 year ago

NeuralAIM commented 1 year ago

Примеры вывода модели:

Вы можете использовать их в любой ситуации, где **вас** требуется фамилия. вас - вам

Моё любимое животное - это **кота**. кота - кот

Почему бы и **ты** не рассказать мне о том, что тебе нравится делать в свободное время? ты - тебе

И так далее...

Проверял 7b/13b | v1/v2 используя ggml модели со стандартными настройками.

Пытался изменить настройки, но положительных результатов не дало 😄

AlexTracks commented 1 year ago

Поддерживаю, данная проблема у меня тоже.

И планируется выпуск 70b+ моделей? Новые квантования? Переделка под gguf?

IlyaGusev commented 1 year ago

Привет, это к сожалению норма, и 70B это не полечит. Модели на основе Лламы без LM дообучения на большом русском корпусе нормально склонять слова не научатся. Смотрите в сторону ГигаСайги.

Насчёт 70B: я сейчас пытаюсь сократить датасет, чтобы это вышло дешевле. В README есть реквизиты, по которым можно задонатить. Через пару дней начну обучать, через неделю будет готово.

Новые квантования как будто и не нужны особо. GGUF будет.

Andrew-MK commented 1 year ago

А как в индустрии принято проверять модели на адекватность владения русскоязычной письменностью?

Я имею ввиду не сообразительность модели на задания (вход) на русском языке с ответами в духе да/нет или цитатами из входного контекста, как делается в RussianSuperGLUE, а как в данной теме, что в целом модель хорошо на русском языке пишет.

IlyaGusev commented 1 year ago

Вопрос хороший.

Есть RuCoLA, которая именно про грамматичность, но она к сожалению больше про классификацию, а не про генерацию.

С моей точки зрения вот какой датасет нужен: дан префикс и два варианта продолжения, из которых один корректный, а один - некорректный. И модели нужно выбрать. Что-то типа вот этого или этого. Можно даже взять отрицательные примеры из RuCoLA, и сделать из них пары.

Важно, чтобы примеры использовали только левый контекст.

IlyaGusev commented 1 year ago

А, и 70B вышла: https://huggingface.co/IlyaGusev/saiga2_70b_lora

saiga2_70b vs gpt-3.5-turbo: 91-10-75