lefin17 / speaker

Speak to text on russian
0 stars 0 forks source link

оптимизация чтения текста и сбора статистики #13

Open lefin17 opened 5 years ago

lefin17 commented 5 years ago

Если поле уже есть а) предварительное чтение (вопрос как быть с регистром

б) сохранение изменений в памяти в) запись изменений после анализа г) оставить получение индекса за вставкой нового слова

lefin17 commented 5 years ago

Функция подготовки чтения (загрузка словаря, определение длины примера, частоты)

обновление частот через временную таблицу вставка пакетная хранение слов в нижнем регистре в переменных (в таблице по первому вхождению) запись так как используется отдельно работа с примерами (тоже через временную таблицу)

во временной таблице - указатель на обновляемое слово если попытка повторно обновить - замена элемента массива далее после каждой сотни [назначаемого числа] предложений - фиксация изменений при этом временная таблица очищается, а словарь продолжает работать (не пригодно для параллельного анализа и поточного исследования)

lefin17 commented 5 years ago

Ожидаемый выигрыш около 50 раз по скорости

lefin17 commented 5 years ago

function createTmpFreq() - создание временной таблицы и заполнение на всю выборку содержащуюся в базе

function putTmpFreq()

function checkTmp() - проверка наличия данных во временной таблице - возможно отсутсвие таблицы - нужна обработка исключения. (другая задача)

объединение таблицы частот с временной таблицей

lefin17 commented 5 years ago

делаем так, чтоб можно было использовать многопоточность

Также идет проверка по вопросу - никто ли не нашел этого слова до того, как его нашла текущая программа.

кешируем запросы по частоте использования, не кешируем запросы по добавлению примеров.

сохраняем скорость чтения (в отдельном модуле) по отдельной задаче

lefin17 commented 5 years ago

Решение задачи привело к перекрою структуры БД

Осталось

lefin17 commented 5 years ago

readWords - функция чтения слов. (написана)

Частота использования выделяется отдельной таблицей, так как довольно много разных частот, и будет мусор...

нужна функция обновления с применением временной таблицы