пара вопросов по работе морфологии

GoogleCodeExporter commented 9 years ago

День добрый!
Спасибо за этот проект!
Не смог найти Ваш емайл, поэтому пишу сюда.

Не могу понять почему так происходить.
на входе: "какого-то"
на выходе:
wordBaseForms: [какого-ть]
MorphInfo: [какого-ть|b КР_ПРИЧАСТИЕ 
од,но,прш,стр,ед,ср]

Как это обьяснить? Или я что то не правильно 
делаю?

И где можно найти расшифровку выхода MorphInfo?

Спасибо!
Андрей

Original issue reported on code.google.com by silenzio...@gmail.com on 26 May 2011 at 9:04

GoogleCodeExporter commented 9 years ago

В lucene стандартный tokenizer при разделение слов 
на части слова содержащие дефис или тире 
будут трактоваться как два слова. По этому 
в обработке таких слов нет необходимости, а 
их удаление дает меньший размер 
потребляемой памяти и возможно более 
точный результат предсказания для 
незнакомых слов.

Original comment by Alexander.A.Kuznetsov on 1 Jun 2011 at 10:31

Changed state: WontFix

GoogleCodeExporter commented 9 years ago

Спасибо за разьяснения!

А где можно найти расшифровку выхода MorphInfo?

Я использую собственный tokenizer, а 
стандартный tokenizer Lucene с русским языком 
корректно работает?

Original comment by silenzio...@gmail.com on 1 Jun 2011 at 11:05

GoogleCodeExporter commented 9 years ago

Расшифровку можно взять отсюда 
http://aot.ru/docs/rusmorph.html.

Стандартный tokenizer Lucene корректно работает 
для большинства Европейских языков. Так 
что можете им смело пользоваться.

Original comment by Alexander.A.Kuznetsov on 1 Jun 2011 at 2:25

qasta / russianmorphology

пара вопросов по работе морфологии #5