"Первичная задача — идентификация в завершенных текстах персонажей, их действий и целей (в терминах, использованных в тексте). То есть поиск явной морали.
Выбрать из сказки о курочке рябе персонажей (дед, баба, ряба, мышка) их действия (снесла курочка, дед бил, баба била) и объекты действий (яйцо). То есть вначале предполагается, что один текст — одна ситуация, со связанными персонажами
Вспомогательная задача — идентифицировать границы и переходы ситуаций в тексте и связь ситуаций между текстами, для работы с незавершенными текстами и, наоборот, со сборниками завершенных текстов."
Я не понял, вы пытаетесь изобрести n-gram'ные языковые модели?
Ну перед тем как пускаться во все тяжкие, посмотрите что народ уже успел понапридумывать за 60 лет в компьютерной лингвистике.
Ваш способ, как и n-gram'ы уткнется в комбинаторную сложность. И никуда от нее не денетесь. Частично, эту проблему снимают рекуррентные нейронные сети (см Mikolov — RNN Based Language Models)
Пока, если коротко, могу привести метафорический пример смысла. Есть два пути выявления смысла. Первый это обобщение некоторых признаков. Например, белое круглое в небе — это признаки. Их обобщение — луна. Второй это выявление упущенных признаков. Например, луна, белое круглое. Упущено — в небе. Разумеется над определениями еще нужно поработать, обещаю это сделать к следующей статье.
https://habrahabr.ru/company/sensecognition/blog/202662/