Nashev / TextBrain

experiments with AI;
http://innenashev.narod.ru
4 stars 1 forks source link

Грамматическая и лексическая статистика и метрика - для изучения языка #125

Open Nashev opened 6 years ago

Nashev commented 6 years ago

Хочу сервис, который по переданному ему тексту выдаст статистику, какое количество и каких грамматических конструкций в нём содержится, и как это соотносится с аналогичной характеристикой того или иного корпуса текстов (#34). Сколько типовых, сколько редких, сколько уникальных.. Никто такого не видел? И то же по словарному составу.

И чтоб фильмы по этой метрике повыбирать бы, скармливая туда субтитры.. И книжки.

Это был бы живой статистический словарь языка с грамматикой. Могла б быть революция в языкознании, и явление сравнимое по значимости с Википедией! Особенно если всякие визуализации красиво сделать, по областям типа сленг, региональные специфики, исторические периоды, маршруты распространения, положение того или иного текста в этом пространстве... Показать место Йодиш в области грамматических конструкций))

В научных кругах наверняка под это дело можно грант найти, и затем жить на рекламу или пожертвования.. (в тему к #54)

Для подхода KinoLanguage - обучение языкам по кино очень приходилось бы.

Новость про движок https://steemit.com/.../welcome-to-free-text-clustering в тему

Nashev commented 6 years ago

В тему: https://github.com/NVIDIA/sentiment-discovery и прочий unsupervised language learning

Nashev commented 6 years ago

То же самое на уровне букв и звуков было б интересно

Nashev commented 6 years ago

Обнаружил термин про базы грамматических структур! https://en.wikipedia.org/wiki/Treebank

Это уже очень близко к тому, что хочется! Вот ещё б наглядные сравнения таких вот выборок...

Nashev commented 6 years ago

Место текста в мире, в языке.

Nashev commented 6 years ago

Гистограммы нормализованные, ось вертикально. В одну сторону от неё столбцы количеств конструкций всего корпуса, в другую — анализируемого текста. Максимумы приведены к одной ширине.

В связи с большим перевесом часто используемого относительно редко используемого, можно отображать логарифм количества вместо самого количества.

Выведя этот «листик» в объём, можно к оси (стволу, корешку) в других плоскостях прикрепить гистограммы других текстов и корпусов. И эту «ёлочку-книжку» крутить и «листать»

https://geographyofrussia.com/polovozrastnye-piramidy/, https://commons.m.wikimedia.org/wiki/File:Population_pyramid_of_Berlin_(DE-2010-12-31).svg — вот похожие картинки

На счёт визуализации посмотреть на возможности скриптования 3D-систем типа 3D Studio Max и Fusion 360

https://www.autodesk.com/viewers/all-viewers бесплатные смотрелки

Fusion 360 типа крутой редактор, бесплатный для энтузиастов и стартапов. Качать тут: https://www.autodesk.com/products/fusion-360/free-trial Вот про его API: https://help.autodesk.com/view/fusion360/ENU/?guid=GUID-A92A4B10-3781-4925-94C6-47DA85A4F65A и https://autodeskfusion360.github.io/ А вот про начало работы: https://help.autodesk.com/view/fusion360/ENU/?contextId=DESIGN_HISTORY

Nashev commented 6 years ago

http://www.aot.ru/docs/synan.html

Nashev commented 6 years ago

Посмотреть в сторону https://github.com/opencog/link-grammar

Nashev commented 6 years ago

И подсветка в тексте тех иностранных слов, которые я ещё не знаю - исходя из отдельно выписанного словаря тех, которые уже знаю.

Я такой словарь коплю в недрах lingvist (не знаю, можно ли оттуда извлечь) и ещё видел инструмент накопления в wooordhunt

И оценка текстов по количеству неизвестных слов, и оценка перечня известных слов по сравнению с тем или иным корпусом...

Nashev commented 6 years ago

То же про песни — очень сложно выбрать песню для исполнения или изучения, если известны такие критерии, как перечень способов проявления навыков и сильных сторон певца, затрагиваемый вокальный диапазон, не только по нотам, но и их окраске и громкости.

В этом пространстве неплохо бы изображать области, доступные певцу или слушателю, и области, занимаемые тем или иным произведением, сравнивать, искать по интересующим отличиям.

При чём области эти не чёткие, в том смысле что и певец некоторые пограничные места достигает не уверенно, иногда случайно, тут важна статистика, и слушатель их замечает не всегда и не чётко, а некоторые замечает, но не интересуется, а некоторые и не любит, хоть и замечает, да и песню можно петь попроще, а можно повитеиватее, или в другой тональности...

А вообще, тут ещё неплохо бы уметь смотреть в области в пространстве идей, тем, подходов, используемых методов вывода выводов и воздействия на аудиторию