Nashev / TextBrain

experiments with AI;
http://innenashev.narod.ru
4 stars 1 forks source link

N-граммы, статья про начало очередных работ на тему и мысли по поводу #119

Open Nashev opened 7 years ago

Nashev commented 7 years ago

https://habrahabr.ru/company/sensecognition/blog/202662/

"Первичная задача — идентификация в завершенных текстах персонажей, их действий и целей (в терминах, использованных в тексте). То есть поиск явной морали.

Выбрать из сказки о курочке рябе персонажей (дед, баба, ряба, мышка) их действия (снесла курочка, дед бил, баба била) и объекты действий (яйцо). То есть вначале предполагается, что один текст — одна ситуация, со связанными персонажами

Вспомогательная задача — идентифицировать границы и переходы ситуаций в тексте и связь ситуаций между текстами, для работы с незавершенными текстами и, наоборот, со сборниками завершенных текстов."

Я не понял, вы пытаетесь изобрести n-gram'ные языковые модели? Ну перед тем как пускаться во все тяжкие, посмотрите что народ уже успел понапридумывать за 60 лет в компьютерной лингвистике.

Ваш способ, как и n-gram'ы уткнется в комбинаторную сложность. И никуда от нее не денетесь. Частично, эту проблему снимают рекуррентные нейронные сети (см Mikolov — RNN Based Language Models)

Пока, если коротко, могу привести метафорический пример смысла. Есть два пути выявления смысла. Первый это обобщение некоторых признаков. Например, белое круглое в небе — это признаки. Их обобщение — луна. Второй это выявление упущенных признаков. Например, луна, белое круглое. Упущено — в небе. Разумеется над определениями еще нужно поработать, обещаю это сделать к следующей статье.

Nashev commented 5 years ago

сервис https://kartaslov.ru/%D0%BF%D1%80%D0%B5%D0%B4%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F-%D1%81%D0%BE-%D1%81%D0%BB%D0%BE%D0%B2%D0%BE%D1%81%D0%BE%D1%87%D0%B5%D1%82%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC/%D0%B2%D0%B7%D0%B3%D0%BB%D1%8F%D0%B4%20%D1%85%D1%83%D0%B4%D0%BE%D0%B6%D0%BD%D0%B8%D0%BA%D0%B0 в тему