Intelligent-Systems-Phystech / 2018-Project-12

Unsupervised Machine Translation
0 stars 0 forks source link

Подготовить выборки для обучения машинного перевода #2

Closed bahleg closed 5 years ago

bahleg commented 5 years ago

Подготовить две выборки (задача на два человека): a. Выборка предложений из параллельного корпуса OPUS (субтитры) с ограниченным словарем (словари выдам) b. Выборка предложений из корпуса непараллельных текстов с тем же ограниченным словарем.

В результате должны быть доступны как выборки, так и код получения этих выборок (допустимо использование jupyter). Задача рассчитана на 2 человека.

eskidnov commented 5 years ago

Взял

snakoner commented 5 years ago

Взял( Строганов )

bahleg commented 5 years ago

Принято.

bahleg commented 5 years ago

Добавил частотные словари, основанные на википедии: https://github.com/Intelligent-Systems-Phystech/2018-Project-12/tree/master/data

Нужно взять все топ-5000 слов из каждого словаря. Параллельные предложения брать из OpenSubtitles-2018: http://opus.nlpl.eu/