selivanov-as / ml-text-highlights

Chromium Extension to higlight important text from email messages
0 stars 0 forks source link

ML text highlights / Выделение смысла из текста

Задачи

Plugin

  1. Сделать UI
  2. Внедрить предсказатель/решающую функцию
  3. Уметь готовить данные для решающей функции

    Pipeline ML

  4. Почитать статьи
  5. Собрать данные
  6. Обучиться на данных
  7. Измериться на данных
  8. Создать решающую функцию

Wikipedia Corpus

Скачиваем последний дамп с русской википедией (занимает ~60 минут в зависимости от скорости интернета) wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2

Вычленяем и сохраняем все токены из корпуса в текстовый файл (занимает 3-5 часов) https://gist.github.com/bulgakovk/4d81cdfb12bc0edab8f0f1fa0c578bc4

Лемматизация и обучение моделей с 27 страницы: http://www.machinelearning.ru/wiki/images/7/7e/Mel_lain_msu_nlp_sem_5.pdf

Count PR/AC/Recall and F1 Score

Подготовка работающей модели к загрузке на AWS Lambda

Настройка окружения

Подготовка исходников

Можно ориентироваться на то, как выглядит проект в этой ветке, то есть: скомпилированные зависимости под AWS, "чистый" репозиторий без других файлов, отдельная ветка. Обработчик, который будет вызывать Lambda при тригерах: "main.handler". Это значит, что вызывается функция handler lambda_src/main.py. Это поведение можно менять в настройках функции в gulpfile, если в этом есть необходимость. Пошаговое руководство выглядит так:

source ./venv/bin/activate

pip install -r requirements.txt

Настройка параметров AWS Lambda функции

const options = { profile: "default", region: "eu-west-1" };