Open Nashev opened 6 years ago
В тему: https://github.com/NVIDIA/sentiment-discovery и прочий unsupervised language learning
То же самое на уровне букв и звуков было б интересно
Обнаружил термин про базы грамматических структур! https://en.wikipedia.org/wiki/Treebank
Это уже очень близко к тому, что хочется! Вот ещё б наглядные сравнения таких вот выборок...
Место текста в мире, в языке.
Гистограммы нормализованные, ось вертикально. В одну сторону от неё столбцы количеств конструкций всего корпуса, в другую — анализируемого текста. Максимумы приведены к одной ширине.
В связи с большим перевесом часто используемого относительно редко используемого, можно отображать логарифм количества вместо самого количества.
Выведя этот «листик» в объём, можно к оси (стволу, корешку) в других плоскостях прикрепить гистограммы других текстов и корпусов. И эту «ёлочку-книжку» крутить и «листать»
https://geographyofrussia.com/polovozrastnye-piramidy/, https://commons.m.wikimedia.org/wiki/File:Population_pyramid_of_Berlin_(DE-2010-12-31).svg — вот похожие картинки
На счёт визуализации посмотреть на возможности скриптования 3D-систем типа 3D Studio Max и Fusion 360
https://www.autodesk.com/viewers/all-viewers бесплатные смотрелки
Fusion 360 типа крутой редактор, бесплатный для энтузиастов и стартапов. Качать тут: https://www.autodesk.com/products/fusion-360/free-trial Вот про его API: https://help.autodesk.com/view/fusion360/ENU/?guid=GUID-A92A4B10-3781-4925-94C6-47DA85A4F65A и https://autodeskfusion360.github.io/ А вот про начало работы: https://help.autodesk.com/view/fusion360/ENU/?contextId=DESIGN_HISTORY
Посмотреть в сторону https://github.com/opencog/link-grammar
И подсветка в тексте тех иностранных слов, которые я ещё не знаю - исходя из отдельно выписанного словаря тех, которые уже знаю.
Я такой словарь коплю в недрах lingvist (не знаю, можно ли оттуда извлечь) и ещё видел инструмент накопления в wooordhunt
И оценка текстов по количеству неизвестных слов, и оценка перечня известных слов по сравнению с тем или иным корпусом...
То же про песни — очень сложно выбрать песню для исполнения или изучения, если известны такие критерии, как перечень способов проявления навыков и сильных сторон певца, затрагиваемый вокальный диапазон, не только по нотам, но и их окраске и громкости.
В этом пространстве неплохо бы изображать области, доступные певцу или слушателю, и области, занимаемые тем или иным произведением, сравнивать, искать по интересующим отличиям.
При чём области эти не чёткие, в том смысле что и певец некоторые пограничные места достигает не уверенно, иногда случайно, тут важна статистика, и слушатель их замечает не всегда и не чётко, а некоторые замечает, но не интересуется, а некоторые и не любит, хоть и замечает, да и песню можно петь попроще, а можно повитеиватее, или в другой тональности...
А вообще, тут ещё неплохо бы уметь смотреть в области в пространстве идей, тем, подходов, используемых методов вывода выводов и воздействия на аудиторию
Хочу сервис, который по переданному ему тексту выдаст статистику, какое количество и каких грамматических конструкций в нём содержится, и как это соотносится с аналогичной характеристикой того или иного корпуса текстов (#34). Сколько типовых, сколько редких, сколько уникальных.. Никто такого не видел? И то же по словарному составу.
И чтоб фильмы по этой метрике повыбирать бы, скармливая туда субтитры.. И книжки.
Это был бы живой статистический словарь языка с грамматикой. Могла б быть революция в языкознании, и явление сравнимое по значимости с Википедией! Особенно если всякие визуализации красиво сделать, по областям типа сленг, региональные специфики, исторические периоды, маршруты распространения, положение того или иного текста в этом пространстве... Показать место Йодиш в области грамматических конструкций))
В научных кругах наверняка под это дело можно грант найти, и затем жить на рекламу или пожертвования.. (в тему к #54)
Для подхода KinoLanguage - обучение языкам по кино очень приходилось бы.
Новость про движок https://steemit.com/.../welcome-to-free-text-clustering в тему