Open NeuralAIM opened 1 year ago
Поддерживаю, данная проблема у меня тоже.
И планируется выпуск 70b+ моделей? Новые квантования? Переделка под gguf?
Привет, это к сожалению норма, и 70B это не полечит. Модели на основе Лламы без LM дообучения на большом русском корпусе нормально склонять слова не научатся. Смотрите в сторону ГигаСайги.
Насчёт 70B: я сейчас пытаюсь сократить датасет, чтобы это вышло дешевле. В README есть реквизиты, по которым можно задонатить. Через пару дней начну обучать, через неделю будет готово.
Новые квантования как будто и не нужны особо. GGUF будет.
А как в индустрии принято проверять модели на адекватность владения русскоязычной письменностью?
Я имею ввиду не сообразительность модели на задания (вход) на русском языке с ответами в духе да/нет или цитатами из входного контекста, как делается в RussianSuperGLUE, а как в данной теме, что в целом модель хорошо на русском языке пишет.
Вопрос хороший.
Есть RuCoLA, которая именно про грамматичность, но она к сожалению больше про классификацию, а не про генерацию.
С моей точки зрения вот какой датасет нужен: дан префикс и два варианта продолжения, из которых один корректный, а один - некорректный. И модели нужно выбрать. Что-то типа вот этого или этого. Можно даже взять отрицательные примеры из RuCoLA, и сделать из них пары.
Важно, чтобы примеры использовали только левый контекст.
А, и 70B вышла: https://huggingface.co/IlyaGusev/saiga2_70b_lora
saiga2_70b vs gpt-3.5-turbo: 91-10-75
Примеры вывода модели:
Вы можете использовать их в любой ситуации, где **вас** требуется фамилия.
вас - вамМоё любимое животное - это **кота**.
кота - котПочему бы и **ты** не рассказать мне о том, что тебе нравится делать в свободное время?
ты - тебеИ так далее...
Проверял
7b/13b
|v1/v2
используяggml
модели со стандартными настройками.Пытался изменить настройки, но положительных результатов не дало 😄