Closed bahleg closed 5 years ago
Взял
Взял( Строганов )
Принято.
Добавил частотные словари, основанные на википедии: https://github.com/Intelligent-Systems-Phystech/2018-Project-12/tree/master/data
Нужно взять все топ-5000 слов из каждого словаря. Параллельные предложения брать из OpenSubtitles-2018: http://opus.nlpl.eu/
Подготовить две выборки (задача на два человека): a. Выборка предложений из параллельного корпуса OPUS (субтитры) с ограниченным словарем (словари выдам) b. Выборка предложений из корпуса непараллельных текстов с тем же ограниченным словарем.
В результате должны быть доступны как выборки, так и код получения этих выборок (допустимо использование jupyter). Задача рассчитана на 2 человека.