tanya-ling / middle-russian-parser

Программа для автоматической лемматизации и морфологического анализа русских текстов 15 - 17 вв
3 stars 2 forks source link

middle-russian-parser

Программа для автоматической лемматизации и морфологического анализа русских текстов 15 - 17 вв

Программа основана на морфологическом анализаторе для разноструктурных языков Тимофея Архангельского UniParser3.0, версия от 2017.03.02.

Для работы с программой необходим интерпретатор Python 3. Чтобы проанализировать текст, скачайте весь репозиторий на свой компьютер. Откройте папку "\parser files\test\". Файл "test_test.txt" содержит пример текста, анализируемого программой. Вы можете заменить текст файла test_test.txt на текст, который вам необходимо проанализировать, или создать новый файл с текстом для анализа в этой же папке. Обратите внимание, что файл для анализа должен быть в кодировке utf-8 без BOOM.

Откройте файл "\parser files\test.py".

Строки 114 и 115 имеют вид - test_text = './test/test_text.txt' results_name = './test/test_results.txt' Если вы создали новый файл для анализа, замените "test_text.txt" на название вашего файла, а "test_results.txt" на название, которое вы хотели бы дать файлу с результатами анализа. Запустите исполнение файла "test.py". Компиляция парадигм и лексического словаря может занять до одной минуты, скорость анализа составляет примерно 11 тысяч слов в минуту, поэтому, если вы анализируете большой файл, может понадобиться подождать. После выполнения программы результат анализа будет находиться в папке "\parser files\test\" в файле "test_results.txt" или в файле с указанным вами названием в формате xml разметки.

Если вам хочется узнать анализ отдельного слова, воспользуйтесь функцией m.ana2xml, пример ее употребления указан в строке 111 файла test.py. print(m.ana2xml('бысть', m.parse('бысть'))) Замените "бысть" на словоформу, которую вы хотите проанализировать.