Intelligent-Systems-Phystech / 2018-Project-12

Unsupervised Machine Translation
0 stars 0 forks source link

Написать пословный перевод на основе словарей. #4

Open bahleg opened 5 years ago

bahleg commented 5 years ago

Написать пословный алгоритм перевода в двух вариантах:

  1. по реальному словарю
  2. по словам из общего пространства слов MUSE (https://github.com/facebookresearch/MUSE)
  3. Провести перевод корпуса multi30K (en-fr).
  4. Оценить качество по BLEU

В результате: залит код, допустимо в формате ipython-notebook

Задача рассчитана на 2 человека.

silug109 commented 5 years ago

Хочу взять

bahleg commented 5 years ago

Словари: https://github.com/facebookresearch/MUSE#ground-truth-bilingual-dictionaries

Скрипт BLEU: https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl

Как пользоваться (нужен только пример вызова, предобработка текста и прочее из статьи не требуется, в статье был специфичный формат данных): https://www.kaggle.com/nltkdata/wmt15-eval/home

bahleg commented 5 years ago
  1. Комментариев нужно больше. Незнакомому с кодом человеку будет непонятно зачем строчка "!wget https://s3.amazonaws.com/arrival/embeddings/wiki.multi.uk.vec --no-check-certificate" в первой клетке.

  2. Выгрузку словарей ru-en, en-uk и пр. оберните в команду в ноутбуке.

  3. Для больших комментариев (типа коммента "#создание словаря англо-французского....") имеет смысл делать отдельные клетки типа "Markdown" или "RawNB".

  4. В случае, если слово незнакомо - имеет смысл оставлять его без перевода. У вас сейчас по логике кода неизвестные слова удаляются.

  5. Имеет смысл убрать вывод в функции load_vec. Сейчас ноутбук весит 9МБ исключительно из-за вывода строчек вида "word found twice...".