Open lefin17 opened 5 years ago
получился интересный результат, котрый на коротких примерах при сравнении с текстом получает выборку что можно анализировать вместе и под что нужно формировать устойчивый шаблон восприятия..
распределение короткого предложения говорит какие из сочетаний будут использоватья чаще всего в дальнейшем, что можно запоминать не только как буквы, но и как буквосочетания, при том, что по этим можно делать дальнейшее шаблонизирование путем увеличения выборки..
Итого - шаг первый берем предложение шаг второй формируем из него центр кластеризации и совместно с явлением префикса и постфикса формируем выборку по книге.
выборка говорит нам о том, что на следующий уровень можно отправить около 20% буквосочетаний (если их там уже нет, а очень часто они там есть) так как они плотно встречаются в книге (обзор разных авторов, показал схожие показатели)
так 5% выборки формируют 30% вхождений 10% 43% 13% 50% 20% 60% - что и нужно... для дальнейшего успешного анализа буквосочетаний или шаблонного восприятия.
следующий уровень возможно будет обладать подобным распределением...
далее по второму предложению - формируем подобную выборку - сравниваем - ищем знакомые вхождения..
не подтвержденные удаляются из выборки после обработки...
возможно поднимать до уровня 2... те кто прошел первый если после анализа не пройден первый забываем, возможен анализ на другом множестве, предложение не должно быть взято из текста, тогда все его элементы будут подтверждены... (это не так, так как должно быть многократное вхождение определяющее важность сочетания для использования) также если total >> approve approve-- (много тестов помогают забыть) пока идет обучение, обучение модели заканчивается на нескольких поисковых фразах...
результаты анализа /app/dictionary/res.csv, res2.csv
примерный подход такой - я знаю, что я только что слышал (контрольная фраза учителя) и смотрю другие источники на предмет шаблонизации - буквы - окей буквы, символы - может быть символы, текста должно быть много... его объем должен составлять как 1000 к 1, использую 300К текста для анализа одного предлажения.
Далее используем закон Паретта (20% что дают 80%) и стремимся не уйти за 20% выборки и 80% по знаниям, за знаниями - общая площадь числа вхождений, она должна быть больше единичной площади (найдено по одному вхождению)
у меня получались результаты на 200 сочетаний в предложении (примерно столько в нем букв) приходилось от 9000 до 50000 площади результатов вхождения в текст.
после того как подтвержден первый уровень, можно пробовать перейти на второй, но может поменяться опорное предложение - тогда остается жить в памяти за счет того что одно подтверждение получено, но если есть вхождение по текущей выборке - может быть исследовано как пораждение нового шаблона с увеличенным размером... либо без префикса, либо без постфикса, либо и с тем и с другим (дается право на формирование трех последовательностей), не все из которых могут выжить (то есть войти в 80%) на обучающей выборке.
Это как механизм возможности повышения вероятности и шаблонизации...
По причине того, что в русском языке (как и в любом другом) возможно редуцирование звуков, а также есть зависимость произнесения звуков от расположения буквы в слове (соседей) предлагается ввести фиксацию соседей - тем самым возможно проанализировать наличие влияния соседей на зависимость звука от буквы (и расположения)
память указатель звука (тут нужно будет вводить спецсимволы обозначающие сонарные, гласные, и пр.) или по их влиянию на звучание...
prefix
symbol
postfix (знаком после буквы может быть запятая, воцклицательный или вопросительный знак, что-то еще) - что посмотрим - матрица симовов будет самообразующаяся, на основе примеров.
кусок речевого анализатора (почти как составление словаря, только по примерам, используемым для обучения) не сильно зависит от языка (сильно зависит от языка)