Open lefin17 opened 5 years ago
Функция подготовки чтения (загрузка словаря, определение длины примера, частоты)
обновление частот через временную таблицу вставка пакетная хранение слов в нижнем регистре в переменных (в таблице по первому вхождению) запись так как используется отдельно работа с примерами (тоже через временную таблицу)
во временной таблице - указатель на обновляемое слово если попытка повторно обновить - замена элемента массива далее после каждой сотни [назначаемого числа] предложений - фиксация изменений при этом временная таблица очищается, а словарь продолжает работать (не пригодно для параллельного анализа и поточного исследования)
Ожидаемый выигрыш около 50 раз по скорости
function createTmpFreq() - создание временной таблицы и заполнение на всю выборку содержащуюся в базе
function putTmpFreq()
function checkTmp() - проверка наличия данных во временной таблице - возможно отсутсвие таблицы - нужна обработка исключения. (другая задача)
объединение таблицы частот с временной таблицей
делаем так, чтоб можно было использовать многопоточность
Также идет проверка по вопросу - никто ли не нашел этого слова до того, как его нашла текущая программа.
кешируем запросы по частоте использования, не кешируем запросы по добавлению примеров.
сохраняем скорость чтения (в отдельном модуле) по отдельной задаче
Решение задачи привело к перекрою структуры БД
Осталось
[ ] Определить предстоящие и после стоящие знаки (prefix, postfix #14)
[ ] Сформировать запись примеров на основе длины и md5 с сохранением номера предложения, источника, и не для всего, а со второго раза за данный текст.
[ ] Тестирование создания словаря
readWords - функция чтения слов. (написана)
Частота использования выделяется отдельной таблицей, так как довольно много разных частот, и будет мусор...
нужна функция обновления с применением временной таблицы
Если поле уже есть а) предварительное чтение (вопрос как быть с регистром
б) сохранение изменений в памяти в) запись изменений после анализа г) оставить получение индекса за вставкой нового слова