Переводчик мансийского языка с использованием алгоритмов и методов машинного обучения. http://51.250.35.86:8005/.
Данный проект создается в рамках AI Product Hack - хакатона, организованного магистратурой по ИИ AI Talent Hub и компанией Napoleon IT. В рамках хакатона был выбран кейс №10 от ЮНИИТ под названием "Русско-Мансийский переводчик". Идеей нашего проекта является создание эффективного переводчика для мансийского языка, чтобы сохранить и популяризировать этот язык. Целями нашего проекта являются автоматизация процесса перевода, увеличение доступности мансийского языка и поддержка культурного наследия народа Манси.
Проект разворачивается в облачной инфраструктуре Yandex.Cloud. Данный сервис был выбран для реализации проекта, так как в рамках AI Product Hack участникам команд был выдан доступ к ресурсам Yandex.Cloud. Разворачивание проекта в облачной инфраструктуре Yandex.Cloud предоставляет ряд преимуществ и возможностей для эффективной работы и масштабирования. Использование Yandex.Cloud позволяет обеспечить надежную и безопасную инфраструктуру для проекта.
На данный момент этот проект предоставляет возможность для пользователей переводить текст с русского на мансийский и наоборот, а также вводить специальные мансийские символы. Проект реализован в виде веб-сайта с возможностью осуществить перевод, узнать информацию о проекте и перейти по ссылкам в блоке с контактными данными. Дальнейшее развитие данного проекта предполагает развитие в полноценный портал мансийского языка и возможное расширение на другие редкие малые языки.
Все решение выполнено в Yandex.Cloud. Имеется обученная модель NLLB, API Gateway и frontend. Запрос от пользователя с frontend идет через API Gateway в трансформер, после чего он выдает результат. Далее frontend отображает соответствующий перевод. Для решения используется модель NLLB (No Language Left Behind), позволяющая эффективно работать с редкими языками, что выделяет ее среди других переводчиков. Модель обучена на предоставленном корпусе данных, а также на самостоятельно найденных и синтетически сгенерированных текстах, что позволило улучшить точность трансформера.
Проект разделен на смысловые ветки.
Командой uvicorn app:app --reload
запускается сервер, который будет доступен localhost.
Для остановки сервера используйте сочетание клавиш Ctrl + C
в терминале.
— Максим Свистунов, ML Engineer. Обучение модели и оптимизация алгоритмов.
— Анна Сарыбаева, Project Manager. Организационные и технические процессы, backend-разработка.
— Владимир Михайлов, Аналитик. Письменное написание алгоритмов.
— Оксана Соломенчук, Data Engineer. Анализ и сбор данных, а также их редактирование и интерпретация.
— Вадим Паненко, Дизайнер. UI/UX дизайн, разработка frontend’а, общий дизайн проекта.