Open bahleg opened 5 years ago
Хочу взять
Словари: https://github.com/facebookresearch/MUSE#ground-truth-bilingual-dictionaries
Скрипт BLEU: https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl
Как пользоваться (нужен только пример вызова, предобработка текста и прочее из статьи не требуется, в статье был специфичный формат данных): https://www.kaggle.com/nltkdata/wmt15-eval/home
Комментариев нужно больше. Незнакомому с кодом человеку будет непонятно зачем строчка "!wget https://s3.amazonaws.com/arrival/embeddings/wiki.multi.uk.vec --no-check-certificate" в первой клетке.
Выгрузку словарей ru-en, en-uk и пр. оберните в команду в ноутбуке.
Для больших комментариев (типа коммента "#создание словаря англо-французского....") имеет смысл делать отдельные клетки типа "Markdown" или "RawNB".
В случае, если слово незнакомо - имеет смысл оставлять его без перевода. У вас сейчас по логике кода неизвестные слова удаляются.
Имеет смысл убрать вывод в функции load_vec. Сейчас ноутбук весит 9МБ исключительно из-за вывода строчек вида "word found twice...".
Написать пословный алгоритм перевода в двух вариантах:
В результате: залит код, допустимо в формате ipython-notebook
Задача рассчитана на 2 человека.