anyasarybaeva / Mansi-Legends

Русско-мансийский переводчик
MIT License
3 stars 0 forks source link

Mansi-Legends

TranslateExample.gif
Переводчик мансийского языка с использованием алгоритмов и методов машинного обучения. http://51.250.35.86:8005/.

Описание проекта

Данный проект создается в рамках AI Product Hack - хакатона, организованного магистратурой по ИИ AI Talent Hub и компанией Napoleon IT. В рамках хакатона был выбран кейс №10 от ЮНИИТ под названием "Русско-Мансийский переводчик". Идеей нашего проекта является создание эффективного переводчика для мансийского языка, чтобы сохранить и популяризировать этот язык. Целями нашего проекта являются автоматизация процесса перевода, увеличение доступности мансийского языка и поддержка культурного наследия народа Манси.

Проект разворачивается в облачной инфраструктуре Yandex.Cloud. Данный сервис был выбран для реализации проекта, так как в рамках AI Product Hack участникам команд был выдан доступ к ресурсам Yandex.Cloud. Разворачивание проекта в облачной инфраструктуре Yandex.Cloud предоставляет ряд преимуществ и возможностей для эффективной работы и масштабирования. Использование Yandex.Cloud позволяет обеспечить надежную и безопасную инфраструктуру для проекта.

На данный момент этот проект предоставляет возможность для пользователей переводить текст с русского на мансийский и наоборот, а также вводить специальные мансийские символы. Проект реализован в виде веб-сайта с возможностью осуществить перевод, узнать информацию о проекте и перейти по ссылкам в блоке с контактными данными. Дальнейшее развитие данного проекта предполагает развитие в полноценный портал мансийского языка и возможное расширение на другие редкие малые языки.

Архитектура решения

Mansi-Legends-Architecture2.png
Все решение выполнено в Yandex.Cloud. Имеется обученная модель NLLB, API Gateway и frontend. Запрос от пользователя с frontend идет через API Gateway в трансформер, после чего он выдает результат. Далее frontend отображает соответствующий перевод. Для решения используется модель NLLB (No Language Left Behind), позволяющая эффективно работать с редкими языками, что выделяет ее среди других переводчиков. Модель обучена на предоставленном корпусе данных, а также на самостоятельно найденных и синтетически сгенерированных текстах, что позволило улучшить точность трансформера.

Структура проекта

Проект разделен на смысловые ветки.

Полусинтетический датасет

Краулинг и обработка данных

Приложение)

Наша команда

ML.png
Максим Свистунов, ML Engineer. Обучение модели и оптимизация алгоритмов.
Анна Сарыбаева, Project Manager. Организационные и технические процессы, backend-разработка.
Владимир Михайлов, Аналитик. Письменное написание алгоритмов.
Оксана Соломенчук, Data Engineer. Анализ и сбор данных, а также их редактирование и интерпретация.
Вадим Паненко, Дизайнер. UI/UX дизайн, разработка frontend’а, общий дизайн проекта.